大数据

Core  一系列分布式文件系统和通用I/O组件和接口

Avro 一种提供高效、跨语言的RPC数据序列系统,持久化数据存储

HDFS 分布式文件系统,运行于大型商用机集群

MapReduce 分布式数据处理模式和执行环境,运行于大型商用机集群

Pig 一种数据流语言和运行环境,运行在MapReduce和HDFS集群上。

Hbase 一个分布式、列存储数据库。HBase使用HDFS作为底层存储,同时支持MapReduce和批量式计算和点查询。

Hive 分布式数据仓库。Hive管理HDFS中存储的数据,并提供基于SQL的查询语言用以查询数据。

Spark

Kafka

ElasticSearch ElasticSearch是一个基于Lucene的搜索服务器。它提供了一个分布式多用户能力的全文搜索引擎,基于RESTful web接口。

Zookeeper 一个分布式、高可用性协调服务。ZooKeeper提供分布式基本服务用于构建分布式应用。

Chukwa 分布式数据收集和分析系统。Chukwa运行HDFS中存储数据的收集器,它使用MapReduce来生成报告。

HBase介绍、搭建、环境、安装部署[转]

Zookeeper 安装和配置[转]

Apache Avro是什么干什么用的(RPC/序列化)[转]

Elasticsearch学习,请先看这一篇![转]

使用spark DStream的foreachRDD时要注意哪些坑?[转]

kafka接口API[转]