标签归档:BigData

Spark on yarn模式[转]

https://my.oschina.net/u/3754001/blog/1811243

1.配置

安装Hadoop:需要安装HDFS模块和YARN模块,spark运行时要把jar包放到HDFS上。

安装Spark:不需要启动Spark集群,在client节点配置中spark-env.sh添加JDK和HADOOP_CONF_DIR目录,Spark程序将作为yarn的客户端用户提交任务。

export JAVA_HOME=/usr/local/jdk1.8.0_161

export HADOOP_CONF_DIR=/usr/local/src/hadoop-2.6.1/etc/hadoop

启动HDFS和YARN

 …

发表在 大数据 | 标签为 , | Spark on yarn模式[转]已关闭评论

Kafka消费者:从Kafka中读取数据[转]

https://blog.csdn.net/shmily_lsl/article/details/81877447

本系列文章为对《Kafka:The Definitive Guide》的学习整理,希望能够帮助到大家

应用从Kafka中读取数据需要使用KafkaConsumer订阅主题,然后接收这些主题的消息。在我们深入这些API之前,先来看下几个比较重要的概念。

Kafka消费者相关的概念

消费者与消费组

假设这么个场景:我们从Kafka中读取消息,并且进行检查,最后产生结果数据。我们可以创建一个消费者实例去做这件事情,但如果生产者写入消息的速度比消费者读取的速度快怎么办呢?这样随着时间增长,消息堆积越来越严重。对于这种场景,我们需要增加多个消费者来进行水平扩展。

Kafka消费者是消费组

发表在 大数据 | 标签为 , | Kafka消费者:从Kafka中读取数据[转]已关闭评论

Spark32个常用算子总结[转]

https://blog.csdn.net/

官方文档上列举共有32种常见算子,包括Transformation的20种操作和Action的12种操作。

(注:以下截图为windows下运行结果)

Transformation:

1.map

map的输入变换函数应用于RDD中所有元素,而mapPartitions应用于所有分区。区别于mapPartitions主要在于调用粒度不同。如parallelize(1 to 10, 3),map函数执行10次,而mapPartitions函数执行3次。

2.filter(function)…

发表在 大数据 | 标签为 , | Spark32个常用算子总结[转]已关闭评论