目录
产品简介
Apache Tajo 是用于 Apache Hadoop 的强大的大数据关系和分布式数据仓库系统。Tajo 专为存储在 HDFS(Hadoop 分布式文件系统)和其他数据源上的大型数据集上的低延迟和可扩展的 ad-hoc 查询、在线聚合和 ETL(提取-转换-加载过程)而设计。通过支持 SQL 标准和利用先进的数据库技术,Tajo 允许跨各种查询评估策略和优化机会直接控制分布式执行和数据流。
产品特点
- 快速高效
全分布式 SQL 查询处理引擎
查询优化,例如基于成本和渐进式查询优化
合理数据集的交互分析 - 可扩展
长时间运行查询的容错和动态调度
大于主存的数据集的核外算法 - 兼容
ANSI/ISO SQL 标准合规性
Hive MetaStore 访问支持
JDBC 驱动程序支持
支持多种文件格式,例如 CSV、JSON、RCFile、SequenceFile、ORC 和 Parquet - 简单
用户自定义函数
交互式外壳
方便的备份/恢复实用程序
异步/同步 Java API