学分高考 web前端

大数据面试题 Hive数仓开发的基本流程

发布时间: 2022-05-16 19:27:01

数据仓库是面向主题的、集成的、不可更新的、随时间的变化而不断变化的,这些特点决定了数据仓库的系统设计不能采用同开发传统的OLTP数据库一样的设计方法。数据仓库的设计大体上可以分为以下几个步骤:概念模型设计、技术准备工作、逻辑模型设计、物理模型设计、数据仓库生成、数据仓库运行与维护。下面我们来看看Hive数仓开发的基本流程。

大数据面试题 Hive数仓开发的基本流程

1.从业务系统获取数据

Sqoop 导入数据库的数据:spoop 可以在 Hive 与传统的数据库间进行数据的传递,可以将一个关系型数据库中的数据导进到 Hadoop 的HDFS中,也可以将 HDFS 的数据导进到关系型数据库中。

Flume 采集文本数据:Flume 可以将各类型的文件进行采集,存放入 hdfs中。

Ftp 文件服务器:从文件服务器上下载分析所需的源数据(增量数据、全量数据)。

2.数据存储

数据仓库分层 ods 层、dw 层、da 层:

源数据层 ODS :直接引用外围的数据 没有统一格式化的 不会直接应用使用不利于分析。

数据仓库层 DW :来自于 ODS 要经过 ETL 的过程 格式统一 数据规整 干净清洁。

数据应用层 DA :要去用 DW 层数据真正的数据使用者。

数据集市:也叫数据市场,数据集市就是满足特定的部门或者用户的需求,按照多维的方式进行存储,包括定义维度、需要计算的指标、维度的层次等,生成面向决策分析需求的数据立方体。

3.配置调度系统

4.导出数据&展示

以上就是小编整理的有关大数据面试题之Hive数仓开发的基本流程,都是干货,小伙伴赶紧掌握吧!

温馨提示:
本文【大数据面试题 Hive数仓开发的基本流程】由作者教培参考提供。该文观点仅代表作者本人,学分高考系信息发布平台,仅提供信息存储空间服务,若存在侵权问题,请及时联系管理员或作者进行删除。
我们采用的作品包括内容和图片部分来源于网络用户投稿,我们不确定投稿用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的权利,请联系我站将及时删除。
内容侵权、违法和不良信息举报
Copyright @ 2024 学分高考 All Rights Reserved 版权所有. 湘ICP备17021685号