绑定完请刷新页面
取消
刷新

分享好友

×
取消 复制
大数据与归纳
2022-08-12 17:56:29


提问:归纳是发现新真理的方式,大数据的技术是不是用来赋能归纳,为更好地发现真理?


思考:

那些从有限数量的特殊事实推出普遍结论的论证,被称之为归纳论证。它们在逻辑上有别于演绎论证。归纳论证不同于演绎论证的一个特点就是,它们把有关某一特定种类的某些事情的命题,推广到有关该类的所有事情的命题。


大数据就是海量数据的意思。我们可以收集海量数据,进行人为分析,得出结论,指导实践;也可以让计算机收集更为海量的数据,让计算机分析,让计算机做出响应。比如记录人脸图像,让计算机进行新的人脸图像识别;记录购买历史,让计算机推荐用户感兴趣的内容,让人剁手剁到欲罢不能;记录你的短视频观看历史,让你沉迷于软件无法自拔。


当我们掌握大数据的时候也没有掌握全部数据,如果能掌握,另外如果上帝存在,那么应该是上帝掌握全部数据,我们就可以推出上帝是全知全能的。

大数据只是在小数据的有限数据基础上,扩充了样本维度、样本容量。


样本维度的扩充有什么好处呢?我竟然想到了中庸。中庸,用朱熹的方式来解释,为不偏不倚、无过无不及之意。我想用数学的方式来解释,中庸就是在尽可能多地掌握事物维度的情况下,选择合适的那个。用什么来评判不偏不倚呢?如果我们掌握的维度是2,然后选其一,那就是非黑即白,谈不上不偏不倚(掌握1个维度就是认死理!我们省略);若维度为5,我们把事物看得就更全一些,对待一件不公正的社会事件,我们从一两个维度和从五六个维度去评判,所得到的感受是不同的。五六个维度的时候,我们对待社会事件中的不公正内心就可能平和一些,活得就要舒畅一点;我们处理家庭矛盾、同事冲突,就会站在不同的角度、维度去思考,就更能理解别人,减少矛盾和冲突,除去不必要的人际麻烦,专注于更好地生活和工作。数学是可以突破三维空间的,如果你需要,便可以创造无穷多维度。如果把维度扩充到10000呢?先不谈可行性。如果一个人能做到用10000个角度去看世界,那他或许能做到中庸的高境界。如果你读了10000个哲学家的书,我们知道一般情况下,每个哲学家的哲学都不同,那我们便掌握了10000个哲学家的思想维度。刚开始读,我们在内心会冲突,这个人说的对那个人说的也对,而且这个人说的竟然和那个人说的是相反的,我们不能理解,我们会挣扎,我们会越来越糊涂。但是读到10000个哲学家的时候,我们内心便没有了那种冲突,在这么多看世界的维度下,我们自然能选择为平常、为合适、不偏不倚、无过无不及的立场。

思考完了样本维度,我们开始思考另外一个方面:样本容量的扩充。从统计角度讲,就是在增大样本量,提升准确度。样本量是多少才是大样本?下面的模拟和检验程序会产生5000个样本量为100000t(2)分布的样本均值,并检验这些均值是否为正态分布(按照中心极限定理,在大样本情况下,会服从正态分布)

set.seed(10);y=NULL;for(i in1:5000){
  y=c(y,mean(rt(100000,2)))
}
shapiro.test(y) #得到W = 0.83095, p-value < 2.2e-16

##
## Shapiro-Wilk normality test
##
## data: y
## W = 0.83095, p-value < 2.2e-16

我们得到的p值说明,拒绝了服从正态分布的假设。即,当样本量为100000,也算不上是大样本。我们就希望通过大数据掌握更多样本量,得到真理。




分享好友

分享这个小栈给你的朋友们,一起进步吧。

大数据之我观
创建时间:2020-05-20 11:12:12
关注 Hadoop, Hive, HBase, YARN, Shark, Spark, 大规模数据处理相关的开源项目,数据挖掘,个性化推荐,反作弊诚信...
展开
订阅须知

• 所有用户可根据关注领域订阅专区或所有专区

• 付费订阅:虚拟交易,一经交易不退款;若特殊情况,可3日内客服咨询

• 专区发布评论属默认订阅所评论专区(除付费小栈外)

栈主、嘉宾

查看更多
  • yukang
    栈主

小栈成员

查看更多
  • 栈栈
  • gaokeke123
  • wojiuzhuai
  • fenyun689
戳我,来吐槽~