Tajo介绍 - 文章详情

Tajo介绍

2022-06-09 10:49:53

产品简介

Apache Tajo 是用于 Apache Hadoop 的强大的大数据关系和分布式数据仓库系统。Tajo 专为存储在 HDFS（Hadoop 分布式文件系统）和其他数据源上的大型数据集上的低延迟和可扩展的 ad-hoc 查询、在线聚合和 ETL（提取-转换-加载过程）而设计。通过支持 SQL 标准和利用先进的数据库技术，Tajo 允许跨各种查询评估策略和优化机会直接控制分布式执行和数据流。

产品特点

快速高效
全分布式 SQL 查询处理引擎
查询优化，例如基于成本和渐进式查询优化
合理数据集的交互分析
可扩展
长时间运行查询的容错和动态调度
大于主存的数据集的核外算法
兼容
ANSI/ISO SQL 标准合规性
Hive MetaStore 访问支持
JDBC 驱动程序支持
支持多种文件格式，例如 CSV、JSON、RCFile、SequenceFile、ORC 和 Parquet
简单
用户自定义函数
交互式外壳
方便的备份/恢复实用程序
异步/同步 Java API