大数据核心技术：Hadoop与spark

发布时间: 2022-05-17 21:12:01

大数据学习需要掌握很多技术知识点，包括Linux、Zookeeper、Hadoop、Redis、HDFS、MapReduce、Hive、lmpala、Hue、Oozie、Storm、Kafka、Spark、Scala、SparkSQL、Hbase、Flink、机器学习等。今天主要和大家分享一下Hadoop和spark技术。

Hadoop是什么?

Hadoop在2006年开始成为雅虎项目，随后晋升为顶级Apache开源项目。它是一种通用的分布式系统基础架构，具有多个组件：Hadoop分布式文件系统(HDFS)，它将文件以Hadoop本机格式存储并在集群中并行化; YARN，协调应用程序运行时的调度程序; MapReduce，这是实际并行处理数据的算法。Hadoop使用Java编程语言构建，其上的应用程序也可以使用其他语言编写。用一个Thrift客户端，用户可以编写MapReduce或者Python代码。

除了这些基本组件外，Hadoop还包括Sqoop，它将关系数据移入HDFS; Hive，一种类似SQL的接口，允许用户在HDFS上运行查询; Mahout，机器学习。除了将HDFS用于文件存储之外，Hadoop现在还可以配置使用S3 buckets或Azure blob作为输入。

它可以在Apache发行版开源，也可以用Cloudera(规模和范围最大的Hadoop供应商)，MapR或HortonWorks等厂商提供。

Spark是什么?

Spark是一个较新的项目，在2012年诞生在加州大学伯克利分校的AMPLab。它也是一个顶级Apache项目，专注于在集群中并行处理数据，一大区别在于它在内存中运行。

类似于Hadoop读取和写入文件到HDFS的概念，Spark使用RDD(弹性分布式数据集)处理RAM中的数据。Spark以独立模式运行，Hadoop集群可用作数据源，也可与Mesos一起运行。在后一种情况下，Mesos主站将取代Spark主站或YARN以进行调度。

Spark是围绕Spark Core构建的，Spark Core是驱动调度，优化和RDD抽象的引擎，并将Spark连接到正确的文件系统(HDFS，S3，RDBM或Elasticsearch)。Spark Core上还运行了几个库，包括Spark SQL，允许用户在分布式数据集上运行类似SQL的命令，用于机器学习的MLLib，用于解决图形问题的GraphX以及允许输入连续流式日志数据的Streaming。

Spark有几个API。原始界面是用Scala编写的，并且由于大量数据科学家的使用，还添加了Python和R接口。Java是编写Spark作业的另一种选择。

Databricks是由Spark创始人Matei Zaharia创立的公司，现在负责 Spark开发并为客户提供Spark分销。

现在大数据专业在各个领域不断得到应用，不仅仅是数据为企业提供了发展方向的支撑，同时对于优势资源配置以及降低生产成本都有非常明显的指导作用。而对于求知者来说，学习大数据就是在位自己未来的职业发展中加分。目前想进入大数据行业，一般都是通过参加培训的方式，而对于在职的人群，脱产学习势必会有很大的压力，所以大家可以考虑通过教育培训网在线教育平台学习大数据技术。想了解教育培训网的课程，可以直接与教育培训网平台老师沟通。

温馨提示：