数据科学边界:数据不能解决什么?

0 评论 2130 浏览 9 收藏 16 分钟

我们现在已经走过了很久的历程,终于完成了这个系列的写作,今天是我们的收官之作,我们聊点轻松的,今天没有公式,没有代码。

    1. 如何构建学科体系
    2. 数据世界观
    3. 数据分析整体框架
    4. 问题分析/数据预处理/数据预分析
    5. 数据分析核心:建模
    6. 模型空间概述
    7. 数据科学边界(这篇文章)
    8. ……

数据科学 = 数学/统计学 + 科学方法论 + 计算机 (+ 业务经验)

我们在刚刚接触一个新奇的事物的时候,总有一种冲动:这种东西可以改变全宇宙。

比如:我们刚接触区块链的时候,啊,区块链就要改变全宇宙了。其实区块链也只是一种去中心化的分布式的数据库技术而已,当我们问区块链什么时候可以改变世界的时候,其实再问一种数据库技术什么时候改变世界?

科学刚诞生的时候,人类世界开始了去魅的过程,越来愈多的事情被证伪,被科学拉下神坛,正当科学家们踌躇满志的时候,马克韦伯在一篇题为<作为学术的志业>的演讲中说:我们这个时代必定是分裂的一代,一方面科学告诉我们事实是什么,却无法告诉我们什么是善良,什么是美。

短短的一句话终结了科学万能的神话,我们刚接触数据科学的时候,也觉得这是个数据入侵一切的世界,今天我们就来看看数据科学不能解决什么?

科学的边界:无法测量的对象,无法研究

这里先补充一点测量学的基础知识,我们如何测量一个研究对象呢?

测量主要考虑的俩个因素:效度和信度。

  • 信度是指其可信度,既是在多大程度上是正确的(数据测量的稳定性);
  • 效度是指能够多有效的表示所需表达的含义(映射的准确性)。

举个栗子:以一份量表(测量智力,记忆力之类的标准化试卷)为例,其信度就是指同一个人在几次参加同一份试卷的考试(假设此人并未有改变)分数不会有大的差异,而效度是指这份试卷能勾多大程度测量你的智力水平。再如:用一把尺子来量一个人的体重,其信度是有的,但是没有效度。如果一个事物具有效度,那一定具有信度,反之则不然。

现实中,我们不一定可以找到有效测量对象的指标或者参照,即使找到了也不一定可以保证测量的稳定性。

举个栗子:科学是如何研究潜意识的,目前科学达到的最高的水平,也只是通过特定脑区的脑电波变化来反映潜意识。首先这个测量的效度就很低,脑电波变化如何能反映潜意识呢?同一潜意识活动如何稳定的被测量?

科学的边界:价值类问题 无法有效研究

关于这部分的论述,前人已经做了精彩的论述,我援引韦伯在<学术与政治>中的论述。韦伯在书中谈到的一个重点,是真善美统一性的瓦解。学术知识的目标是求真,发现自然世界与人类社会的事实真相。

在西方传统的观念中,真善美是一个和谐整体,发现了事实真相就能确立伦理的标准,由此分辨好坏对错,而且还能确定美的本质,从而得以鉴别美与丑。但是现代学术的发展表明,真是一种事实判断,而善或美都是价值判断,三者背后没有统一的依据。

如果一名学者在“表达自己的价值判断,那么他对事实理解的完整性就终结了”。这意味着韦伯认同英国哲学家休谟的观点,事实与价值属于两种不同的问题领域,前者是“实然”问题,关乎“实际上是什么”,而后者是“应然问题,判断“应当是什么”,实然与应然之间没有逻辑的统一性。

比如:今天我穿了件蓝色的上衣,这是一个事实陈述,大概不会有异议,假如你说这是绿色的,那么你要么是故意胡说,要么就是“色盲”。我们可以用仪器来测量衣服的“波长”,用数据证明这是物理学定义的“蓝色”。

但还有另一种说法,说这种蓝色“特别好看”,这就不是事实陈述,而是在做价值判断了。 要是有人提出不同的判断,坚持说这种蓝色难看极了,你很难用同样客观有力的证据来反驳。

这个简单的例子告诉我们两个道理:

  • 第一,美和真属于不同的领域,没有统一的判断依据;
  • 第二,事实判断具有客观性,在原则上可以通过证据和理性辩论让大家达成一致,而价值判断具有很强的主观色彩,理性辩论无法保证能解决争议,达成共识。

计算机的边界:图灵机限制/摩尔定律限制/信息论假设

关机计算机的极限主要来自这几个方面:

  1. 图灵机的极限:图灵机仅仅可以计算一部分问题,而图灵机是今天计算机的原型.图灵机无法计算一类让自己无法停机的问题。
  2. 香农信息论基本假设:计算机无法随机,无法表示无理数。
  3. 摩尔定律随着芯片体积缩小而失效:摩尔定律是由英特尔(Intel)创始人之一戈登·摩尔(Gordon Moore)提出来的。

其内容为:当价格不变时,集成电路上可容纳的元器件的数目,约每隔18-24个月便会增加一倍,性能也将提升一倍。

换言之,每一美元所能买到的电脑性能,将每隔18-24个月翻一倍以上,这一定律揭示了信息技术进步的速度。 尽管这种趋势已经持续了超过半个世纪,摩尔定律仍应该被认为是观测或推测,而不是一个物理或自然法。

预计定律将持续到至少2015年或2020年。然而,2010年国际半导体技术发展路线图的更新增长已经放缓在2013年年底,之后的时间里晶体管数量密度预计只会每三年翻一番。

数学的边界:哥德尔不完备性

1900年的巴黎,在世纪交替之际,希尔伯特提出了他著名的23个问题。其中第二个问题——算术系统的相容性——正是他那雄心勃勃的“希尔伯特计划”的最后一步。这位数学界的巨人,打算让整个数学体系矗立在一个坚实的地基上,一劳永逸地解决所有关于对数学可靠性的种种疑问。

一切都为了回答三个问题:

  1. 数学是完备的吗?也就是说,面对那些正确的数学陈述,我们是否总能找出一个证明?数学真理是否总能被证明?
  2. 数学是一致的吗?也就是说,数学是否前后一致,不会得出某个数学陈述又对又不对的结论?数学是否没有内部矛盾?
  3. 数学是可判定的吗?也就是说,能够找到一种方法,仅仅通过机械化的计算,就能判定某个数学陈述是对是错?数学证明能否机械化?

希尔伯特明确提出这三个问题时,已是28年后的1928年。在这28年间,数学界在算术系统的相容性上没有多少进展。但希尔伯特没有等太久,仅仅三年后,哥德尔就得到了前两个问题的答案,尽管这个答案不是希尔伯特所希望看到的。

哥德尔的答案分两部分:

  • 第一,任何包含了算术的数学系统都不可能同时拥有完备性和一致性,也就是说,如果一个数学系统包含了算术的话,要么它是自相矛盾的,要么存在一些命题,它们是真的,但我们却无法证明。这说明,希尔伯特的前两个问题不可能同时为真。在这里,“算术”有着精确的含义,就是皮亚诺公理,一组描述了自然数的公理。
  • 第二,任何包含了算术的数学系统,如果它是一致的,那么我们不能在它的内部证明它本身的一致性。这说明,我们没有希望解决第二个问题。

这就是著名的哥德尔不完备性定理,与其说它回答了希尔伯特的前两个问题,不如说它阐述了为什么我们根本不可能解决这两个问题。

哥德尔给出了数学的极限:在数学的领地上,有些东西我们不知道,也不可能知道。

尴尬的是,这就给数学家们心头压上了一块大石:谁也不知道自己辛辛苦苦做了十几年的题目,会不会突然有一天被证明是在现有数学体系中不可判定的。

测量的边界:任何测量都有必然误差

现实世界的对象其实无穷维度的,而测量的本质是有限维度的映射,这些有限维度的选择本身就带有必然的主观色彩,我们获得了一些我们想要的知识,也一定忽略了很多信息。

因果性和相关性的鸿沟

在大家的意识中,因果关系是相关性正好等于100%,如果A发生,那么B一定发生,就是相关系数等于1。 假如我和你都是小学生,你和我肯定都在长个子,那么你长高,我也长高,在这5年之内,你长高我也长高的相关性是1。

大家都知道,因为我和你还在成长期。不是你长高,我也长高。或许,你现在看到这里觉得很可笑,这不是谁都知道吗。但是生活中,各种事情在我们的生活中存在很多,只是我们没有意识到,还有这些事情没有威胁我们的生存。

对因果关系,最前沿的定义是这样的:

认知科学家珀尔给了一个这样的定义:P(Y | do(X)) > P(Y),也就是说,如果你单方面对 X 做一个干预动作,导致 Y 的概率增加,那么就是 X 导致了 Y,这个可能是目前为止最合理的定义。

总结

接下来,我们总结一下数据科学的边界:

世界上有很多问题,其中只有一小部分是数学问题。 在数学问题中,只有一小部分是有解的。在有解的问题中,只有一部分是理想状态的图灵机可以解决的。在后一类的问题中,又只有一部分是今天实际的计算机可以解决的,而人工智能可以解决的问题,又只是计算机可以解决问题的一部分,而数据科学只是这些学科的一个交叉而已。

科学没有解决了所有问题,但是开启了一个去魅的时代,我们更加看清了一些世界的真相。数据也不能解决所有问题,但是却把天使带到了人间,使普通人也能够调用一代代伟人的智慧。

反思

整个过程可以概括为尝试在一个工程学科建立像数学一样的演绎体系,这可能是个失败的,但对自己来说,也算是一个伟大的失败。

虽然整个过程写的我自己呕心沥血,耗尽心力,但其实并文章本身没有为了人类的知识体系做出任何补丁和贡献。

写作的过程是一个不断探索本质的过程,写作的过程不断逼迫自己去思考,去建立概念之间的联系,逼迫自己搞清楚以前模糊的概念,可能这样的写作对自己一个人的意义远远大于对其他人。

这个过程中也在反思,学习知识,我们到底是皓首穷经的究根问底,还是拿来主义就好?

现在想到的一个折中方案是:

  1. 不能一直究根问底,毕竟我们的时间精力有限,任何学科的任何一个分支都有可能穷尽我们一生的精力;
  2. 在调用他人研究成果时 至少需要知道成果中概念的准确含义,成果的假设,成果的结论,结论的限定,其他团体对结果的评价。

当然折中方案的基础是,当要解决具体问题时,我们的信息源要足够的高质量,人文方面主要看大师,看人类社会公认的经典之作,科学方面围绕SCI等核心期刊和科学共同体公认的教材,配合一定的综述性文献。

至此我们可以区分出来,作为消费内容的写作,作为人类知识延续和传播的写作,作为自我反思的写作,之间的区别。

这段时间的写作告一段落,谢谢大家。

 

作者:小祁爱数据,公众号:小祁同学的成长故事

本文由 @小祁爱数据 原创发布于人人都是产品经理。未经许可,禁止转载

题图来自Unsplash,基于CC0协议

更多精彩内容,请关注人人都是产品经理微信公众号或下载App
评论
评论请登录
  1. 目前还没评论,等你发挥!