总览
在过去的两,三十年里,数据仓库一直是流行语,大数据是技术的新趋势。在我们脑海中经常出现的一个问题是:“它们是否相似,大数据会取代数据仓库吗?”,原因是两者都有相似之处,例如保存数据,用于报告目的并由电子存储设备进行管理。两者之间存在根本的区别,即:大数据解决方案是一项技术,而数据仓库是数据计算中的体系结构概念。
一个组织可以基于四个考虑因素而具有不同的组合,例如仅大数据或数据仓库解决方案,或者大数据和数据仓库解决方案,例如:数据结构,数据量,非结构化数据,读取架构。
这篇博客文章试图找出两者之间的相似点和不同点,并用一个用例用例示例进行说明。
什么是数据仓库?
数据仓库是一种概念性体系结构,可帮助存储结构化,面向主题的,时变的,非易失性数据以供决策。数据仓库通常存储历史数据,即专门为查询和分析而构造的交易数据的副本。物理数据整合已经转向一种更逻辑的方式,它也可以容纳实时数据。来自源的数据将进行转换(清理,应用业务规则,增强),并在ETL / ELT阶段进行分析,以加载为结构化形式(可以是关系,维,混合等)。
图1:传统的EDW体系结构
传统的数据仓库集成了来自许多事务和运营系统的数据,以将结果信息作为“事实的单个集成版本”呈现给组织各个级别的决策者。数据仓库的设计,如果做得正确,可以使我们从所有相关的和可能的角度访问,报告和分析该信息;从而驱动一致,准确的信息。
什么是大数据?
大数据是用来存储各种来源的非结构化数据和管理数据艾字节体积庞大(西海岸州的大小)和技术泽字节(太平洋的大小)。大数据能够使用较便宜的存储设备存储结构化,半结构化和非结构化数据,包括视频,音频,非结构化文本等。数据处理是分散的,并分布在多个服务器上,以加快处理速度。存储的数据没有架构或建模,并且数据以其本机格式存储。通过将规则应用于此数据来完成实际使用,并获得报告。
图2:大数据仓库架构
数据仓库与大数据比较表
选择数据仓库或大数据:
当前的数据不仅体积大,而且具有4V(体积,速度,变化率,准确性)的特征,这彻底改变了数据的消耗方式。举一个例子,Facebook报告说,每天共享近25亿个不同项目,并且其数据每天以500TB的速度增长,他们声称捕获了每个用户在其存储空间中的点击。
图3:从数据仓库到大数据
因此,随着组织的发展,出现了从这些数据中存储和提取价值信息的挑战,这涉及成本,质量,准确性和维护。传统的数据仓库通常在作为中央存储库的单个或多个关系数据库中实现。与传统的数据仓库不同,大规模并行分析数据库(例如Netezza,Teradata,EMC GreenPlum)能够以小的数据建模需求快速提取大量主要为结构化的数据,并可以横向扩展以容纳数TB到PB的数据。对于终用户而言,重要的是,大规模并行分析数据库支持对复杂SQL查询的接近实时的结果。而且,用ELT代替ETL很好。
相比之下,大数据技术旨在跨越多台计算机并处理大量数据,无论结构化,半结构化或非结构化数据在基于云的环境或使用Hadoop,HDFS,NOSQL等的分布式服务器中均具有高性能。
关于业务使用情况视图,业务可以从EDW轻松访问报告,但仅限于结构化和交易数据。同样,由于数据的结构安排,可以根据需要获取DW中所有级别的信息。如果业务需要社交媒体中可用的其他信息,则需要根据日志重新构建DW。业务部门对每条原始数据进行分析,并要求对大数据进行单独的转换以生成报告。这涉及成本和额外的努力。由于存在的数据是非结构化且未组织的,因此检索大数据中存在的信息非常困难。
金融服务公司生成结构化数据,例如客户统计数据和交易历史记录,以及非结构化数据,例如客户在网站和社交媒体上的行为。如果组织依赖于对时间敏感的数据分析,则传统的DWH数据库更适合结构化的客户人口统计和交易历史记录。另一方面,在快速性能并不重要的地方,大数据分析适合所有结构化和非结构化的客户交易或行为数据。
大数据/ Hadoop和EDW可以共享相同的保护伞吗?
企业越来越多地意识到,他们需要结合传统数据仓库的业务需求,一方面将其历史业务数据源,另一方面将结构化程度较低的大数据源与另一端结合。支持传统数据和大数据源的混合模型因此可以帮助实现这些业务目标。
在这种混合模型中,高度结构化的优化运营数据保留在严格控制的数据仓库中,而高度分布且实时变化的数据则由基于Hadoop的基础架构控制。Teradata Aster Big Analytics Appliance-是种嵌入SQL和大数据分析处理的工具,可提供对具有高性能和可伸缩性的多结构数据源的更深入了解。
图4:混合DWH模型
此外,混合方法还允许公司保护其在各自的DWH基础架构中的投资,并将其扩展以适应大数据环境。由于Hadoop是一个产品家族,每个产品都具有多种功能,因此数据仓库体系结构中的多个领域可以为Hadoop产品做出贡献,例如数据登台,数据归档,模式灵活性等。Hadoop作为吸引和存储大型存储的数据平台似乎引人注目扩展DW环境中的数据,以及在其他平台上处理该数据以用于分析目的。
在具有Hadoop /大数据集群的企业中放大DWH的方法之一如下:
- 继续将来自OLTP和后台系统的结构化数据存储到DWH中。
- 将非结构化数据(即与电话日志,客户反馈,GPS位置,照片,推文,电子邮件,文本消息中与客户的所有通信)存储到表中的Hadoop / NoSQL中。
- 将DWH中的数据与Hadoop集群中的数据(也可以加载到ODS中)进行关联,以更好地了解客户,产品,设备等。组织现在可以针对此协同运行临时分析以及集群化和定向模型Hadoop中与数据相关的数据,否则在计算上会非常密集。
结论
虽然大数据技术专注于分析,这是数据归档的现代化策略,但数据仓库主要是为报表,OLAP和绩效管理而构建的。因此,我们可以正确地指出,大数据是对数据仓库的补充而不是替代。它们根据业务需求共存。
Hadoop不会替换数据仓库,因为数据及其平台是数据仓库体系结构中的两个非等效层。但是,Hadoop更有可能替换等效数据平台(例如关系数据库管理系统)。