hive 0.10 0.11新增特性综述

2013-09-16 14:02:13

我们的hive版本升迁经历了0.7.1 -> 0.8.1 -> 0.9.0，并且线上shark所依赖的hive版本也停留在0.9.0上，在这些版本上有我们自己的bug fix patch和feature enhancement。但是Hive的版本升级很快，新版本中修复了大量bug，新增了很多功能，非常令人兴奋，其中包括对未来hadoop升级为YARN的支持。所以我们准备将hive版本升级为0.11(近看到maillist上0.12版本也快呼之欲出了，但是保险起见，还是先升级为0.11), 另外shark的github上也已经拉出了hive 0.11分支来支持新版本。

因为是从0.9一下跳过0.10跨越到0.11，所以调研和测试会cover掉hive 0.10和0.11

从hive的release note上，0.10新加的feature和bug fix如下：
1. 支持Cube, Grouping and Rollup语法，可以进行多级group by
https://cwiki.apache.org/confluence/display/Hive/Enhanced+Aggregation,+Cube,+Grouping+and+Rollup

2. 对于简单的不需要聚合的类似SELECT <col> from <table> LIMIT 20语句，不需要起MapReduce job，直接通过Fetch task获取数据
https://issues.apache.org/jira/browse/HIVE-887

3. 新增"Explain dependency"语法，以json格式输出执行语句会读取的input table和input partition信息，这样debug语句会读取哪些表就很方便了
https://issues.apache.org/jira/browse/HIVE-3610

hive (default)> explain dependency select count(1) from abc;
OK
Explain
{"input_partitions":[],"input_tables":[{"tablename":"default@abc","tabletype":"MANAGED_TABLE"}]}
Time taken: 0.095 seconds, Fetched: 1 row(s)

4. 新增"show create table"语法，这样能知道是如何创建表的。之前我们很暴力，直接读取metastore dababase信息来重建表结构信息，如果一旦metastore schema升级，就很容易出问题，这次hive应该是通过metastore client api实现了这个功能，非常靠谱。

https://issues.apache.org/jira/browse/HIVE-967

5. HWI用bootstrap前端框架重写了一边，这个对我们帮助不大，因为我们已经有Hive web了

6. Hadoop 2 - YARN的兼容性支持

7. List Bucketing Table，优化处理有数据倾斜的表
https://cwiki.apache.org/confluence/display/Hive/ListBucketing

8. Union优化，如果Union语句的parent是mapreduce job，那么它会先将结果写入临时文件中，Union再读取这些临时文件写入终目录，上层语句再读取终目录，这样导致结果文件读了两遍。优化策略就是结果数据直接往终目录上写
https://cwiki.apache.org/confluence/display/Hive/Union+Optimization

9. skew join 优化
https://cwiki.apache.org/confluence/display/Hive/Skewed+Join+Optimization

10. metastore支持在server side做authorization验证
https://issues.apache.org/jira/browse/HIVE-3705

11. metastore thrift reconnect支持，当metastore client链接一台metastore thrift server抛出异常，如果用户在conf之指定了多个metastore uris，hive会重新对另外一个建立链接，这个对用户端是透明的
https://issues.apache.org/jira/browse/HIVE-3400

12. 记录column统计信息, analyze语句会统计hive table partitions column信息到metastore里面（比如记录long类型column的low value, high value, num nulls, numDVs），同时提供了metastore api接口来访问这些信息，目前的hive优化策略都是基于rule-based的，而有了这些统计信息有助于未来建立cost-based 执行计划策略
语法如下：
analyze table t [partition p] compute statistics for [columns c,...];
https://cwiki.apache.org/confluence/display/Hive/Column+Statistics+in+Hive

13. 支持cross join语法
https://issues.apache.org/jira/browse/HIVE-2549

14. 支持SHOW TBLPROPERTIES语法
https://issues.apache.org/jira/browse/HIVE-2530

--------------------------不是那么华丽的分割线--------------------------

Hortonworks发布了一个叫stinger的项目计划，分阶段逐步改善Hive的性能，包括优化器的改进，ORCFile支持，基于DAG的Tez，向量执行引擎，0.11其实就是stinger phase one的产物

0.11 新增的Feature:
1. 把Hcatalog整合到hive里面了，而不是独立的项目

2. 支持ORCFile文件格式(Optimized Row Columnar)，基于列存储，文件内置有inline index，可以基于文件做predicate pushdown，根据stripe的元数据来选择是否跳过stripe，大大降低input size
https://cwiki.apache.org/Hive/languagemanual-orc.html

3. 支持windowing和analytics方法，比如lead/lag, row_number, rank, first, last函数
https://cwiki.apache.org/Hive/languagemanual-windowingandanalytics.html

4. Join优化，包括broadcast join和SMB join，对于在多个相同列上做join的表(star join)已经不依赖于用户指定的hint token了，可以自动转化多个MapReduce job为一个MapReduce job
https://issues.apache.org/jira/browse/HIVE-3403

5. unset TBLPROPERTY
ALTER TABLE tableName UNSET TBLPROPERTIES IF EXISTS (key1, key2, ...)

6. group by 语法增强，group by除了可以跟column alias，也可以跟column position
比如：select f1(col1), f2(col2), f3(col3), count(1) group by f1(col1), f2(col2), f3(col3);可以写成select f1(col1), f2(col2), f3(col3), count(1) group by 1, 2, 3;
https://issues.apache.org/jira/browse/HIVE-581

7. 增加decimal data格式
https://issues.apache.org/jira/browse/HIVE-2693

8. 支持truncate语法，truncate会删除表和分区下的所有数据，但是metadata信息会保留，目前只支持native/managed table。用户可以指定特定的分区来truncate，如果不指定的花，会删除所有分区。

9. 新增Hive Server 2，解决之前存在的security和concurrency问题。同时新增加了Beeline CLI（基于SQLLine），可以在command-line中以交互式的访问Hive Server 2，具体详见http://blog.csdn.net/lalaguozhe/article/details/11776055
https://issues.apache.org/jira/browse/HIVE-2935

10. 增强Query Plan优化策略，会删除冗余的operator
https://issues.apache.org/jira/browse/HIVE-948

接下来会重点对几个新增特性，比如Hive Server 2, ORCFile, SMB join等做更深入的调研和测试

本文链接 http://blog.csdn.net/lalaguozhe/article/details/11730817，转载请注明