绑定完请刷新页面
取消
刷新

分享好友

×
取消 复制
海量数据的分析之HIVE
2020-07-01 17:32:34

首先,数据仓库是一个面向主题,稳定的不太会更改的数据,支持管理决策的数据,那么有两种,一种离线数仓,一种实时数仓。一般用的多的是离线数仓

那么HIVE是啥,是一个数据仓库软件,支持使用SQL读取,写入管理分布存储中的大型数据集。hive将真实数据抽象成元数据,提供了命令行及JDBC驱动将用户连到HIVE。

hive基于Hadoop的数据仓库工具,存储的数据底层在HDFS上,HIVE将HDFS上的结构化数据,映射成一张数据库表,类似excel或mysql表。hive的本质是将sql语句转化成mapreduce任务运行,HIVE使用户简化分布式计算程序的编写,集中精力于业务逻辑的处理。

hive不支持delete,update,适用于大数据的分析

HIVE的数据存储,数据库,表,视图,分区。数据库,表,分区对应HDFS上的目录,表数据对应目录下的文件。

HIVE关键3点,建表,导入数据,查询分析

HIVE的数据存储在HDFS中,没有专门的数据存储格式,可支持text file,sequencefile,RCfile,ParquetFlile

HIVE依赖RDBMS帮他存元数据,和一个文件系统帮他存真实数据。

分享好友

分享这个小栈给你的朋友们,一起进步吧。

Hive专区
创建时间:2020-07-01 14:09:32
Hive是一个基于Hadoop的数据仓库平台。通过hive,我们可以方便地进行ETL的工作。hive定义了一个类似于SQL的查询语言:HQL,能 够将用户编写的QL转化为相应的Mapreduce程序基于Hadoop执行。 Hive是Facebook 2008年8月刚开源的一个数据仓库框架,其系统目标与 Pig 有相似之处,但它有一些Pig目前还不支持的机制,比如:更丰富的类型系统、更类似SQL的查询语言、Table/Partition元数据的持久化等。
展开
订阅须知

• 所有用户可根据关注领域订阅专区或所有专区

• 付费订阅:虚拟交易,一经交易不退款;若特殊情况,可3日内客服咨询

• 专区发布评论属默认订阅所评论专区(除付费小栈外)

技术专家

查看更多
  • markriver
    专家
戳我,来吐槽~