什么是大数据分析Hadoop

首页（资讯中心）什么是大数据分析Hadoop

什么是大数据分析Hadoop

1779人已读

发布于：2023-02-15 10:23:17

展开目录

展开目录收起

Hadoop基本组件

1、HDFS组件

2、MapReduce组件

3、Hadoop 扩展组件

4、Pig组件

5、Hive组件

6、Hbase组件

7、Sqoop组件

8、Flume组件

9、ZooKeeper组件

10、Spark组件

11、Cloudera组件

12、Hortonworks组件

13、MapR组件

大数据分析Hadoop就是开源的数据分析平台，解决了大数据（大到一台计算机无法进行存储，一台计算机无法在要求的时间内进行处理）的可靠存储和处理。适合处理非结构化数据，包括HDFS，MapReduce基本组件与扩展组件Pig、Hive、Hbase、Sqoop、Flume、ZooKeeper和Spark等。

什么是大数据分析Hadoop

Hadoop基本组件

1、HDFS组件

提供了一种跨服务器的弹性数据存储系统,在由普通PC组成的集群上提供高可靠的文件存储，通过将块保存多个副本的办法解决服务器或硬盘坏掉的问题。

2、MapReduce组件

通过简单的Mapper和Reducer的抽象提供一个编程模型，可以在一个由几十台上百台的PC组成的不可靠集群上并发地，分布式地处理大量的数据集，而把并发、分布式（如机器间通信）和故障恢复等计算细节隐藏起来。

3、Hadoop 扩展组件

这些技术主要包括了Sqoop、Flume、Hive、Pig、ZooKeeper、Spark等。

4、Pig组件

Apache Pig也是Hadoop框架中的一部分，Pig提供类SQL语言（Pig Latin）通过MapReduce来处理大规模半结构化数据。而Pig Latin是更高级的过程语言，通过将MapReduce中的设计模式抽象为操作，如Filter，GroupBy，Join，OrderBy。

5、Hive组件

是一个基于 hadoop 的开源数据仓库工具，用于存储和处理海量结构化数据。它把海量数据存储于 hadoop 文件系统，而不是数据库，但提供了一套类数据库的数据存储和处理机制，并采用 HQL （类 SQL ）语言对这些数据进行自动化管理和处理。

6、Hbase组件

HBase是一个构建在HDFS上的分布式列存储系统；HBase是基于Google BigTable模型开发的，典型的key/value系统；HBase是Apache Hadoop生态系统中的重要一员，主要用于海量结构化数据存储。

7、Sqoop组件

Sqoop 工具是hadoop环境下连接关系数据库（如：MySQL ,Oracle），和hadoop存储系统的桥梁，支持多种关系数据源和hive,hdfs,hbase的相互导入。一般情况下，关系数据表存在于线上环境的备份环境，需要每天进行数据导入，根据每天的数据量而言，sqoop可以全表导入，对于每天产生的数据量不是很大的情形可以全表导入，但是sqoop也提供了增量数据导入的机制。

8、Flume组件

Flume是Cloudera提供的日志收集系统，Flume支持在日志系统中定制各类数据发送方，用于从网站服务器上收集数据。同时Flume提供对数据进行简单处理，并写到HDFS，HBase等集中存储器中。Flume是一个分布式、可靠、和高可用的海量日志采集、聚合和传输的系统。

9、ZooKeeper组件

一种集中服务，其用于维护配置信息，命名，提供分布式同步，以及提供分组服务。ZooKeeper是一个典型的分布式数据一致性的解决方案，分布式程序可以基于它实现诸如数据发布/订阅、负载均衡、命名服务、分布式协调通知、集群管理、master选举、分布式锁、分布式队列等功能。

10、Spark组件

Spark是一个Apache项目，它被标榜为“快如闪电的集群计算”。它拥有一个繁荣的开源社区，并且是目前最活跃的Apache项目之一。

11、Cloudera组件

100%开源的商业化Apache Hadoop发行版本（CDH, Cloudera’s Distribution including Apache Hadoop）和相关的组件，其中包括了各类安全高效的企业级数据管理工具，如Hive, HBase，Oozie, Zookeeper等。

12、Hortonworks组件

Hortonworks是一家基于Hadoop提供大数据服务的公司，致力于开发Hadoop框架内软件，提升大数据的处理能力。开发了很多增强特性并提交至核心主干，这使得Hadoop能够在包括Windows Server和Azure在内平台上本地运行。

13、MapR组件

获取更好的性能和易用性而支持本地Unix文件系统而不是HDFS。提供诸如快照、镜像或有状态的故障恢复等高可用性特性。领导着Apache Drill项目，是Google的Dremel的开源实现，目的是在Hadoop数据上执行类似SQL的查询以提供实时处理。

让数据流动起来，开启业绩增长！

了解500+品牌零售商使用LinkFlow的场景用例

免费试用

Hadoop基本组件

1、HDFS组件

2、MapReduce组件

3、Hadoop 扩展组件

4、Pig组件

5、Hive组件

6、Hbase组件

7、Sqoop组件

8、Flume组件

9、ZooKeeper组件

10、Spark组件

11、Cloudera组件

12、Hortonworks组件

13、MapR组件

让数据流动起来，开启业绩增长！

产品

应用场景

行业方案

客户案例

营销研习社

关于我们