分类目录归档:大数据
Spring Boot + Kafka的使用[转]
一、快速了解Kafka
在把Kafka集成到spring之前,我们首先要了解Kafka是什么?由什么东西组成?主要的使用场景是哪些?
Apache Kafka是一个开源消息系统,由Scala写成。是由Apache软件基金会开发的一个开源消息系统项目。
Kafka是一个分布式消息队列。Kafka对消息保存时根据Topic进行归类,发送消息者称为Producer,消息接受者称为Consumer,此外kafka集群有多个kafka实例组成,每个实例(server)称为broker。
无论是kafka集群,还是consumer都依赖于zookeeper集群保存一些meta信息,来保证系统可用性。
简单架构理解图
详细架构图
- 1)Producer :消息生产者,就是向kafka
Spark on yarn模式[转]
https://my.oschina.net/u/3754001/blog/1811243
1.配置
安装Hadoop:需要安装HDFS模块和YARN模块,spark运行时要把jar包放到HDFS上。
安装Spark:不需要启动Spark集群,在client节点配置中spark-env.sh添加JDK和HADOOP_CONF_DIR目录,Spark程序将作为yarn的客户端用户提交任务。
export JAVA_HOME=/usr/local/jdk1.8.0_161 export HADOOP_CONF_DIR=/usr/local/src/hadoop-2.6.1/etc/hadoop
启动HDFS和YARN
…
Kafka消费者:从Kafka中读取数据[转]
https://blog.csdn.net/shmily_lsl/article/details/81877447
本系列文章为对《Kafka:The Definitive Guide》的学习整理,希望能够帮助到大家
应用从Kafka中读取数据需要使用KafkaConsumer订阅主题,然后接收这些主题的消息。在我们深入这些API之前,先来看下几个比较重要的概念。
Kafka消费者相关的概念
消费者与消费组
假设这么个场景:我们从Kafka中读取消息,并且进行检查,最后产生结果数据。我们可以创建一个消费者实例去做这件事情,但如果生产者写入消息的速度比消费者读取的速度快怎么办呢?这样随着时间增长,消息堆积越来越严重。对于这种场景,我们需要增加多个消费者来进行水平扩展。
Kafka消费者是消费组…
Spark32个常用算子总结[转]
官方文档上列举共有32种常见算子,包括Transformation的20种操作和Action的12种操作。
(注:以下截图为windows下运行结果)
Transformation:
1.map
map的输入变换函数应用于RDD中所有元素,而mapPartitions应用于所有分区。区别于mapPartitions主要在于调用粒度不同。如parallelize(1 to 10, 3),map函数执行10次,而mapPartitions函数执行3次。
2.filter(function)…
kafka的使用场景[转]
关于消息队列的使用
一、消息队列概述
消息队列中间件是分布式系统中重要的组件,主要解决应用解耦,异步消息,流量削锋等问题,实现高性能,高可用,可伸缩和最终一致性架构。目前使用较多的消息队列有ActiveMQ,RabbitMQ,ZeroMQ,Kafka,MetaMQ,RocketMQ
二、消息队列应用场景
以下介绍消息队列在实际应用中常用的使用场景。异步处理,应用解耦,流量削锋和消息通讯四个场景。
2.1异步处理
场景说明:用户注册后,需要发注册邮件和注册短信。传统的做法有两种 1.串行的方式;2.并行方式
a、串行方式:将注册信息写入数据库成功后,发送注册邮件,再发送注册短信。以上三个任务全部完成后,返回给客户端。
b、并行方式:将注册信息写入数据库成功后,发送注册邮件的同时,发送注册短信。以上三个任务完成后,返回给客户端。与串行的差别是,并行的方式可以提高处理的时间
假设三个业务节点每个使用50毫秒钟,不考虑网络等其他开销,则串行方式的时间是150毫秒,并行的时间可能是100毫秒。…
Apache Avro是什么干什么用的(RPC/序列化)[转]
https://www.jianshu.com/p/a5c0cbfbf608
Avro(读音类似于[ævrə])是Hadoop的一个子项目,
由Hadoop的创始人Doug Cutting(也是Lucene,Nutch等项目的创始人,膜拜)牵头开发,
Avro是一个数据序列化系统,设计用于支持大批量数据交换的应用。
它的主要特点有:支持二进制序列化方式,可以便捷,快速地处理大量数据;动态语言友好,Avro提供的机制使动态语言可以方便地处理Avro数据。
当前市场上有很多类似的序列化系统,如Google的Protocol Buffers, Facebook的Thrift。这些系统反响良好,完全可以满足普通应用的需求。针对重复开发的疑惑,Doug …
Elasticsearch学习,请先看这一篇![转]
https://blog.csdn.net/achuo/article/details/87865141
题记:
Elasticsearch研究有一段时间了,现特将Elasticsearch相关核心知识、原理从初学者认知、学习的角度,从以下9个方面进行详细梳理。欢迎讨论……
0. 带着问题上路——ES是如何产生的?
(1)思考:大规模数据如何检索?
如:当系统数据量上了10亿、100亿条的时候,我们在做系统架构的时候通常会从以下角度去考虑问题:
1)用什么数据库好?(mysql、sybase、oracle、达梦、神通、mongodb、hbase…)
2)如何解决单点故障;(lvs、F5、A10、Zookeep、MQ)
3)如何保证数据安全性;(热备、冷备、异地多活) …
大数据开发初学者教程[转]
大数据开发初学者教程
信息安全公益宣传,信息安全知识启蒙。
其实这就是想告诉你的大数据的三个发展方向,平台搭建/优化/运维/监控、大数据开发/设计/架构、数据分析/挖掘。请不要问我哪个容易,哪个前景好,哪个钱多。
先扯一下大数据的4V特征:
- 数据量大,TB->PB