什么是大数据分析Hadoop
848人已读
发布于:2023-02-15 10:23:17
展开目录
展开目录收起
Hadoop基本组件
1、HDFS组件
2、MapReduce组件
3、Hadoop 扩展组件
4、Pig组件
5、Hive组件
6、Hbase组件
7、Sqoop组件
8、Flume组件
9、ZooKeeper组件
10、Spark组件
11、Cloudera组件
12、Hortonworks组件
13、MapR组件
大数据分析Hadoop就是开源的数据分析平台,解决了大数据(大到一台计算机无法进行存储,一台计算机无法在要求的时间内进行处理)的可靠存储和处理。适合处理非结构化数据,包括HDFS,MapReduce基本组件与扩展组件Pig、Hive、Hbase、Sqoop、Flume、ZooKeeper和Spark等。

什么是大数据分析Hadoop

Hadoop基本组件

1、HDFS组件

提供了一种跨服务器的弹性数据存储系统,在由普通PC组成的集群上提供高可靠的文件存储,通过将块保存多个副本的办法解决服务器或硬盘坏掉的问题。

2、MapReduce组件

通过简单的Mapper和Reducer的抽象提供一个编程模型,可以在一个由几十台上百台的PC组成的不可靠集群上并发地,分布式地处理大量的数据集,而把并发、分布式(如机器间通信)和故障恢复等计算细节隐藏起来。

3、Hadoop 扩展组件

这些技术主要包括了Sqoop、Flume、Hive、Pig、ZooKeeper、Spark等。

4、Pig组件

Apache Pig也是Hadoop框架中的一部分,Pig提供类SQL语言(Pig Latin)通过MapReduce来处理大规模半结构化数据。而Pig Latin是更高级的过程语言,通过将MapReduce中的设计模式抽象为操作,如Filter,GroupBy,Join,OrderBy。

5、Hive组件

是一个基于 hadoop 的开源数据仓库工具,用于存储和处理海量结构化数据。它把海量数据存储于 hadoop 文件系统,而不是数据库,但提供了一套类数据库的数据存储和处理机制,并采用 HQL (类 SQL )语言对这些数据进行自动化管理和处理。

6、Hbase组件

HBase是一个构建在HDFS上的分布式列存储系统;HBase是基于Google BigTable模型开发的,典型的key/value系统;HBase是Apache Hadoop生态系统中的重要一员,主要用于海量结构化数据存储。

7、Sqoop组件

Sqoop 工具是hadoop环境下连接关系数据库(如 :MySQL ,Oracle),和hadoop存储系统的桥梁,支持多种关系数据源和hive,hdfs,hbase的相互导入。一般情况下,关系数据表存在于线上环境的备份环境,需要每天进行数据导入,根据每天的数据量而言,sqoop可以全表导入,对于每天产生的数据量不是很大的情形可以全表导入,但是sqoop也提供了增量数据导入的机制。

8、Flume组件

Flume是Cloudera提供的日志收集系统,Flume支持在日志系统中定制各类数据发送方,用于从网站服务器上收集数据。同时Flume提供对数据进行简单处理,并写到HDFS,HBase等集中存储器中。Flume是一个分布式、可靠、和高可用的海量日志采集、聚合和传输的系统。

9、ZooKeeper组件

一种集中服务,其用于维护配置信息,命名,提供分布式同步,以及提供分组服务。ZooKeeper是一个典型的分布式数据一致性的解决方案,分布式程序可以基于它实现诸如数据发布/订阅、负载均衡、命名服务、分布式协调通知、集群管理、master选举、分布式锁、分布式队列等功能。

10、Spark组件

Spark是一个Apache项目,它被标榜为“快如闪电的集群计算”。它拥有一个繁荣的开源社区,并且是目前最活跃的Apache项目之一。

11、Cloudera组件

100%开源的商业化Apache Hadoop发行版本(CDH, Cloudera’s Distribution including Apache Hadoop)和相关的组件,其中包括了各类安全高效的企业级数据管理工具,如Hive, HBase,Oozie, Zookeeper等。

12、Hortonworks组件

Hortonworks是一家基于Hadoop提供大数据服务的公司,致力于开发Hadoop框架内软件,提升大数据的处理能力。开发了很多增强特性并提交至核心主干,这使得Hadoop能够在包括Windows Server和Azure在内平台上本地运行。

13、MapR组件

获取更好的性能和易用性而支持本地Unix文件系统而不是HDFS。提供诸如快照、镜像或有状态的故障恢复等高可用性特性。领导着Apache Drill项目,是Google的Dremel的开源实现,目的是在Hadoop数据上执行类似SQL的查询以提供实时处理。

让数据流动起来,开启业绩增长!

了解500+品牌零售商使用LinkFlow的场景用例