绑定完请刷新页面
取消
刷新

分享好友

×
取消 复制
hive学习笔记(day01)
2020-07-01 17:10:27

视频课程是尚硅谷的,良心制作,免费分享,B站可看,搜Hive入门

什么是Hive

Hive:由Facebook开源用于解决海量结构化日志的数据统计(重点是海量)。

Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张表,并提供类SQL查询功能。(所有的数据集成在一个仓库里,有点数据中转站的意思,跨库操作查询不是梦,各种个性化业务报表以及关联分析不是梦)

补充1:数据仓库是一个集成的的数据集合。
数据源:是数据仓库的数据来源,含外部数据、现有业务系统和文档资料等;
数据集成:完成数据抽取、清洗、转换等任务,数据源中的数据以固定周期加载到数据仓库。
数据服务:为前端和应用提供数据服务,可直接从数据仓库中获取数据供前端应用使用,也可通过OLAP(OnLine Analytical Processing,联机分析处理)服务器为前端应用提供负责的数据服务。

补充2:数据库和数据仓库的区别
数据库操作:一般称为联机事务处理OLTP(On-Line Transaction Processing),针对具体的业务在数据库中的联机操作,具有数据量较少的特点,通常对少量的数据记录增删改查。

数据仓库的操作:一般称为联机分析处理OLAP(On-Line Analytical Processing),是针对某些主题(综合数据)的历史数据进行分析,支持管理决策

Hive的本质是:将HQL转化成MapReduce程序

那么啥是MapReduce嗄,好像似懂非懂,

这里推荐这篇文章miao君:基于Hadoop的数据仓库Hive 基础知识

注意点:

1)Hive处理的数据存储在HDFS

2)Hive分析数据底层的实现是MapReduce

3)执行程序运行在Yarn上(资源调度器,我只记住了这5个字)

1.2 Hive的优缺点

分享好友

分享这个小栈给你的朋友们,一起进步吧。

Hive专区
创建时间:2020-07-01 14:09:32
Hive是一个基于Hadoop的数据仓库平台。通过hive,我们可以方便地进行ETL的工作。hive定义了一个类似于SQL的查询语言:HQL,能 够将用户编写的QL转化为相应的Mapreduce程序基于Hadoop执行。 Hive是Facebook 2008年8月刚开源的一个数据仓库框架,其系统目标与 Pig 有相似之处,但它有一些Pig目前还不支持的机制,比如:更丰富的类型系统、更类似SQL的查询语言、Table/Partition元数据的持久化等。
展开
订阅须知

• 所有用户可根据关注领域订阅专区或所有专区

• 付费订阅:虚拟交易,一经交易不退款;若特殊情况,可3日内客服咨询

• 专区发布评论属默认订阅所评论专区(除付费小栈外)

技术专家

查看更多
  • markriver
    专家
戳我,来吐槽~