hive学习笔记（day01） - 文章详情

绑定完请刷新页面

取消

刷新

分享好友

×

取消复制

hive学习笔记（day01）

2020-07-01 17:10:27

视频课程是尚硅谷的，良心制作，免费分享，B站可看，搜Hive入门

什么是Hive

Hive：由Facebook开源用于解决海量结构化日志的数据统计（重点是海量）。

Hive是基于Hadoop的一个数据仓库工具，可以将结构化的数据文件映射为一张表，并提供类SQL查询功能。（所有的数据集成在一个仓库里，有点数据中转站的意思，跨库操作查询不是梦，各种个性化业务报表以及关联分析不是梦）

补充1：数据仓库是一个集成的的数据集合。
数据源：是数据仓库的数据来源，含外部数据、现有业务系统和文档资料等；
数据集成：完成数据抽取、清洗、转换等任务，数据源中的数据以固定周期加载到数据仓库。
数据服务：为前端和应用提供数据服务，可直接从数据仓库中获取数据供前端应用使用，也可通过OLAP（OnLine Analytical Processing，联机分析处理）服务器为前端应用提供负责的数据服务。

补充2：数据库和数据仓库的区别
数据库操作：一般称为联机事务处理OLTP（On-Line Transaction Processing），针对具体的业务在数据库中的联机操作，具有数据量较少的特点，通常对少量的数据记录增删改查。

数据仓库的操作：一般称为联机分析处理OLAP（On-Line Analytical Processing），是针对某些主题（综合数据）的历史数据进行分析，支持管理决策

Hive的本质是：将HQL转化成MapReduce程序

那么啥是MapReduce嗄，好像似懂非懂，

这里推荐这篇文章miao君：基于Hadoop的数据仓库Hive 基础知识

注意点：

1）Hive处理的数据存储在HDFS

2）Hive分析数据底层的实现是MapReduce

3）执行程序运行在Yarn上(资源调度器，我只记住了这5个字)

1.2 Hive的优缺点

分享好友

分享这个小栈给你的朋友们，一起进步吧。

创建时间：2020-07-01 14:09:32

Hive是一个基于Hadoop的数据仓库平台。通过hive，我们可以方便地进行ETL的工作。hive定义了一个类似于SQL的查询语言：HQL，能够将用户编写的QL转化为相应的Mapreduce程序基于Hadoop执行。 Hive是Facebook 2008年8月刚开源的一个数据仓库框架，其系统目标与 Pig 有相似之处，但它有一些Pig目前还不支持的机制，比如：更丰富的类型系统、更类似SQL的查询语言、Table/Partition元数据的持久化等。

展开

订阅须知

• 所有用户可根据关注领域订阅专区或所有专区

• 付费订阅：虚拟交易，一经交易不退款；若特殊情况，可3日内客服咨询

• 专区发布评论属默认订阅所评论专区（除付费小栈外）

技术专家

查看更多

markriver
专家

戳我，来吐槽～