学分高考 web前端

大数据面试题 Hive数仓开发的基本流程

发布时间: 2022-05-16 19:27:01

数据仓库是面向主题的、集成的、不可更新的、随时间的变化而不断变化的，这些特点决定了数据仓库的系统设计不能采用同开发传统的OLTP数据库一样的设计方法。数据仓库的设计大体上可以分为以下几个步骤：概念模型设计、技术准备工作、逻辑模型设计、物理模型设计、数据仓库生成、数据仓库运行与维护。下面我们来看看Hive数仓开发的基本流程。

大数据面试题 Hive数仓开发的基本流程

1.从业务系统获取数据

Sqoop 导入数据库的数据：spoop 可以在 Hive 与传统的数据库间进行数据的传递，可以将一个关系型数据库中的数据导进到 Hadoop 的HDFS中，也可以将 HDFS 的数据导进到关系型数据库中。

Flume 采集文本数据：Flume 可以将各类型的文件进行采集，存放入 hdfs中。

Ftp 文件服务器：从文件服务器上下载分析所需的源数据（增量数据、全量数据）。

2.数据存储

数据仓库分层 ods 层、dw 层、da 层：

源数据层 ODS ：直接引用外围的数据没有统一格式化的不会直接应用使用不利于分析。

数据仓库层 DW ：来自于 ODS 要经过 ETL 的过程格式统一数据规整干净清洁。

数据应用层 DA ：要去用 DW 层数据真正的数据使用者。

数据集市：也叫数据市场，数据集市就是满足特定的部门或者用户的需求，按照多维的方式进行存储，包括定义维度、需要计算的指标、维度的层次等，生成面向决策分析需求的数据立方体。

3.配置调度系统

4.导出数据&展示

以上就是小编整理的有关大数据面试题之Hive数仓开发的基本流程，都是干货，小伙伴赶紧掌握吧！

温馨提示：

本文【大数据面试题 Hive数仓开发的基本流程】由作者教培参考提供。该文观点仅代表作者本人，学分高考系信息发布平台，仅提供信息存储空间服务，若存在侵权问题，请及时联系管理员或作者进行删除。

上一篇: HDFS垃圾桶机制总结

下一篇: 女生做大数据有发展前景吗？能学会吗？

相关阅读

教培参考

教育培训行业知识型媒体

相关I T

长沙芙蓉区推荐的web前端线下

济南济阳区推荐的web前端线下培

青岛市南区推荐的web前端线下培

青岛李沧区推荐的web前端线下培

武汉新洲区推荐的web前端线下培

上海浦东新区推荐的web前端线下

广州从化区推荐的web前端线下培

深圳龙岗区推荐的web前端线下培

天津东丽区推荐的web前端线下培

天津宝坻区推荐的web前端线下培

教育资讯

1

县域普通高中振兴有哪些重点举措

2

教育部等六部门联合印发《县域普

3

广西2025年高考录取工作结束顺

4

西藏征集志愿第10号公告

5

黑龙江2025年高考录取工作结束

6

6月7日，2025年全国高考正式拉开

7

倒计时96天！2025年全国高考统考

8

2025年陕西省高考综合改革适应性

9

湖南2025年高考报名将于2024年10

10

2024年全国各省高考人数统计一览

互动交流

微信扫码关注公众号

获取更多考试热门资料

我们采用的作品包括内容和图片部分来源于网络用户投稿，我们不确定投稿用户享有完全著作权，根据《信息网络传播权保护条例》，如果侵犯了您的权利，请联系我站将及时删除。

内容侵权、违法和不良信息举报

Copyright @ 2024 学分高考 All Rights Reserved 版权所有. 湘ICP备17021685号