scala 基于java,但是与java不同scala是函数式的编程语言,scala与java之间的集合框架可以相互转换调用,但是scala的集合框架封装的更完善加上scala对函数式编程的支持,在scala中使用起集合来非常方便,最近用到了一些比较有意思的内容记录如下主要是关于reduce和fold:
我的文艺情节
我读过一些文艺作品,随着时间的流逝和工作的忙碌,我渐渐的少了很多阅读的机会,但是很怀念那些经典作品,现在将我读过的作品记录在这里,有些作品值得细细品味,反复阅读。
group by rollup 和 cube的原理分析
在数据分析中经常会用到分组统计,sparksql的dataframe也支持分组统计,这里记录一下所谓分组统计是什么怎么用,假设有如下的一组临时数据tmp1
2
3
4
5
6
7
8colume1 colume2 value
A X 2
A X 1
A Y 2
A Y 1
B X 3
B Y 2
B Y 2
spark 源码分析之 sparksql DataSet
记录一下sparksql的dataframe 中常用的操作,spark在大数据处理方面有很广泛的应供,每天都在研究spark的源码,简单记录一下以便后续查阅,今天先简单整理一下,后续逐步完善.
版本:spark 2.0.1
大道至简之绘画
简单是最难的复杂
聪明人都使用方格子笔记本
很久没有静下心来读一本书了,上次读书已经是在三个月前的事了,今天看到论坛上看到网友推荐经典书籍,仔细研究了一番发现确实有许多经典的书目,真是爱不释手,想到自己这么久没读书了觉得惭愧又内疚,人每天总是需要学习进步的,我堕落了太久幸好今天看到了这个帖子,决定从今天开始有计划的阅读,厚积薄发慢慢积累,今天主要读了聪明人都使用方格子笔记本,读完之后发现自己堕落了太多,基本上退化为低等生命了,因为我们基本上已经失去了思考的能力,与当今社会的精英阶层差距深远。
java 迭代器
这是一道java基础题目,要求输出一个数组1
2
3
4
5
61 3 6 10 15 21
2 5 9 14 20
4 8 13 19
7 12 18
11 17
16
spark设置shufferpattition数量
- spark 2.0.1 加载csv文件
1
2
3val option=Map("header"->"true","seq"->":")
val tmpdf=spark.sqlContext.read.option(op).format(csv).load("/test.csv");
tmpdf.OrderBy("age").write.csv("/testrs.csv");
以上代码在spark-shell中执行默认有spark对象
输出后在/testrs.csv目录下发现有200个小文件,非常小每个文件大约只有一辆行记录,这是因为sparksql默认的spark.sql.shuffle.partitions值为200,将这个参数在spark的配置文件spark-default中修改成我们想要的就可以了,也可以在代码中动态设置这个值,我自己设置为20。
find awk 和 grep 使用总结
find awk 和 grep 使用总结
使用linux工作经常会用到find这个工具去查找文件,找到的文件可以通过awk进行操作,也可以配合grep
一起操作,这三个工具一起使用基本上可以高效的完成linux下百分之九十的文本处理工作,今天主要记录一下这三个
工具的使用方法。
linux 小工具使用技巧
工作中几乎每天都需要使用linux,刚开始接触linux觉得很高大上,适合装逼用,后面用着用着发现这东西不仅可以装逼还可以提高工作效率,开源界的各路高手为linux/unix写了非常多实用的小工具,这些工具配合起来使用可以极大的提升我们工作效率,今天主要记录一下join,cut,sort,paste,uniq,split 这几个小工具。