标签归档:Spark
Spark on yarn模式[转]
https://my.oschina.net/u/3754001/blog/1811243
1.配置
安装Hadoop:需要安装HDFS模块和YARN模块,spark运行时要把jar包放到HDFS上。
安装Spark:不需要启动Spark集群,在client节点配置中spark-env.sh添加JDK和HADOOP_CONF_DIR目录,Spark程序将作为yarn的客户端用户提交任务。
export JAVA_HOME=/usr/local/jdk1.8.0_161 export HADOOP_CONF_DIR=/usr/local/src/hadoop-2.6.1/etc/hadoop
启动HDFS和YARN
…
Spark32个常用算子总结[转]
官方文档上列举共有32种常见算子,包括Transformation的20种操作和Action的12种操作。
(注:以下截图为windows下运行结果)
Transformation:
1.map
map的输入变换函数应用于RDD中所有元素,而mapPartitions应用于所有分区。区别于mapPartitions主要在于调用粒度不同。如parallelize(1 to 10, 3),map函数执行10次,而mapPartitions函数执行3次。

2.filter(function)…