分享好友

×
取消 复制
什么是大数据?这些你都清楚吗?
2019-08-08 11:51:42

大数据是什么?

大数据,指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。大数据相关的创业有其独特性,创业者如何结合其特点,推出具有生命力的创业项目。所谓大数据就是从海量的互联网信息中通过运用统计学、概率论的原理,去伪存真得出有用信息经过云计算成为指导有关部门的决策依据!当然必须分门别类的收集大数据,政治、军事、经济、文化、社会、各行各业等等均有所侧重!

大数据目前实际发展中存在:数据化程度低,各阶段发展不平衡,利益主体多元,复杂未来趋势,先采集,后互联,整体慢慢改,局部可突破。难点:体制破局、教师改造。国外教育培训行业中数据技术应用的现状,基本面临同样的问题。最终动力只能依靠学习者本身的需求和习惯养成,以及新技术带来的真正便利。

大数据是对大量信息资源的统称,比如在教育方面,第一,大数据是教育领域的大数据,是面向特定教育主题的多类型、多维度、多形态的数据集合;第二,教育大数据是面向教育全过程的数据,通过数据挖掘和学习分析支持教育决策和个性化学习;第三,教育大数据是一种分布式计算架构方式,通过数据共享的各种支持技术达到共建共享的思想。

大数据绝大多数大数据是非结构性的,其种类十分复杂,我们现在的技术手段还没法对此进行处理;再次是速度,数据产生和传送的频率非常快;最后是价值,从大量的低质量、低价值的数据中获取知识,犹如从大海中捞针,获取数据成本很高,但有待挖掘价值大。

总结起来其实很简单,大数据其实就是海量资料巨量资料,这些巨量资料来源于世界各地随时产生的数据,在大数据时代,任何微小的数据都可能产生不可思议的价值。大数据有4个特点,为别为:Volume(大量)、Variety(多样)、Velocity(高速)、Value(价值),一般我们称之为4V。

所谓4V,具体指如下4点:

1.大量。大数据的特征首先就体现为“大”,从先Map3时代,一个小小的MB级别的Map3就可以满足很多人的需求,然而随着时间的推移,存储单位从过去的GB到TB,乃至现在的PB、EB级别。随着信息技术的高速发展,数据开始爆发性增长。社交网络(微博、推特、脸书)、移动网络、各种智能工具,服务工具等,都成为数据的来源。淘宝网近4亿的会员每天产生的商品交易数据约20TB;脸书约10亿的用户每天产生的日志数据超过300TB。迫切需要智能的算法、强大的数据处理平台和新的数据处理技术,来统计、分析、预测和实时处理如此大规模的数据。

2.多样。广泛的数据来源,决定了大数据形式的多样性。任何形式的数据都可以产生作用,目前应用最广泛的就是推荐系统,如淘宝,网易云音乐、今日头条等,这些平台都会通过对用户的日志数据进行分析,从而进一步推荐用户喜欢的东西。日志数据是结构化明显的数据,还有一些数据结构化不明显,例如图片、音频、视频等,这些数据因果关系弱,就需要人工对其进行标注。

3.高速。大数据的产生非常迅速,主要通过互联网传输。生活中每个人都离不开互联网,也就是说每天个人每天都在向大数据提供大量的资料。并且这些数据是需要及时处理的,因为花费大量资本去存储作用较小的历史数据是非常不划算的,对于一个平台而言,也许保存的数据只有过去几天或者一个月之内,再远的数据就要及时清理,不然代价太大。基于这种情况,大数据对处理速度有非常严格的要求,服务器中大量的资源都用于处理和计算数据,很多平台都需要做到实时分析。数据无时无刻不在产生,谁的速度更快,谁就有优势。

4.价值。这也是大数据的核心特征。现实世界所产生的数据中,有价值的数据所占比例很小。相比于传统的小数据,大数据最大的价值在于通过从大量不相关的各种类型的数据中,挖掘出对未来趋势与模式预测分析有价值的数据,并通过机器学习方法、人工智能方法或数据挖掘方法深度分析,发现新规律和新知识,并运用于农业、金融、医疗等各个领域,从而最终达到改善社会治理、提高生产效率、推进科学研究的效果。

分享好友

分享这个小栈给你的朋友们,一起进步吧。

数据治理
创建时间:2020-06-15 14:35:35
数据治理(Data Governance)是组织中涉及数据使用的一整套管理行为。由企业数据治理部门发起并推行,关于如何制定和实施针对整个企业内部数据的商业应用和技术管理的一系列政策和流程。
展开
订阅须知

• 所有用户可根据关注领域订阅专区或所有专区

• 付费订阅:虚拟交易,一经交易不退款;若特殊情况,可3日内客服咨询

• 专区发布评论属默认订阅所评论专区(除付费小栈外)

技术专家

查看更多
  • 栈栈
    专家
戳我,来吐槽~