数据科学边界：数据不能解决什么？

搜索

APP

起点课堂会员权益

职业体系课特权

线下行业大会特权

个人IP打造特权

30+门专项技能课

1300+专题课程

12场职场软技能直播

12场求职辅导直播

12场专业技能直播

会员专属社群

荣耀标识

发布

数据科学边界：数据不能解决什么？

小祁爱数据

2019-01-10

0 评论 2130 浏览 9 收藏

16 分钟

我们现在已经走过了很久的历程，终于完成了这个系列的写作，今天是我们的收官之作，我们聊点轻松的，今天没有公式，没有代码。

1. 如何构建学科体系
2. 数据世界观
3. 数据分析整体框架
4. 问题分析/数据预处理/数据预分析
5. 数据分析核心:建模
6. 模型空间概述
7. 数据科学边界（这篇文章）
8. ……

数据科学 = 数学/统计学 + 科学方法论 + 计算机 (+ 业务经验)

我们在刚刚接触一个新奇的事物的时候，总有一种冲动：这种东西可以改变全宇宙。

比如：我们刚接触区块链的时候，啊，区块链就要改变全宇宙了。其实区块链也只是一种去中心化的分布式的数据库技术而已，当我们问区块链什么时候可以改变世界的时候，其实再问一种数据库技术什么时候改变世界？

科学刚诞生的时候，人类世界开始了去魅的过程，越来愈多的事情被证伪，被科学拉下神坛，正当科学家们踌躇满志的时候，马克韦伯在一篇题为<作为学术的志业>的演讲中说：我们这个时代必定是分裂的一代，一方面科学告诉我们事实是什么，却无法告诉我们什么是善良，什么是美。

短短的一句话终结了科学万能的神话，我们刚接触数据科学的时候，也觉得这是个数据入侵一切的世界，今天我们就来看看数据科学不能解决什么?

科学的边界：无法测量的对象，无法研究

这里先补充一点测量学的基础知识，我们如何测量一个研究对象呢？

测量主要考虑的俩个因素：效度和信度。

信度是指其可信度，既是在多大程度上是正确的（数据测量的稳定性）；
效度是指能够多有效的表示所需表达的含义（映射的准确性）。

举个栗子：以一份量表（测量智力，记忆力之类的标准化试卷）为例，其信度就是指同一个人在几次参加同一份试卷的考试（假设此人并未有改变）分数不会有大的差异，而效度是指这份试卷能勾多大程度测量你的智力水平。再如：用一把尺子来量一个人的体重，其信度是有的，但是没有效度。如果一个事物具有效度，那一定具有信度，反之则不然。

现实中，我们不一定可以找到有效测量对象的指标或者参照，即使找到了也不一定可以保证测量的稳定性。

举个栗子：科学是如何研究潜意识的，目前科学达到的最高的水平，也只是通过特定脑区的脑电波变化来反映潜意识。首先这个测量的效度就很低，脑电波变化如何能反映潜意识呢？同一潜意识活动如何稳定的被测量？

科学的边界：价值类问题无法有效研究

关于这部分的论述，前人已经做了精彩的论述，我援引韦伯在<学术与政治>中的论述。韦伯在书中谈到的一个重点，是真善美统一性的瓦解。学术知识的目标是求真，发现自然世界与人类社会的事实真相。

在西方传统的观念中，真善美是一个和谐整体，发现了事实真相就能确立伦理的标准，由此分辨好坏对错，而且还能确定美的本质，从而得以鉴别美与丑。但是现代学术的发展表明，真是一种事实判断，而善或美都是价值判断，三者背后没有统一的依据。

如果一名学者在“表达自己的价值判断，那么他对事实理解的完整性就终结了”。这意味着韦伯认同英国哲学家休谟的观点，事实与价值属于两种不同的问题领域，前者是“实然”问题，关乎“实际上是什么”，而后者是“应然问题，判断“应当是什么”，实然与应然之间没有逻辑的统一性。

比如：今天我穿了件蓝色的上衣，这是一个事实陈述，大概不会有异议，假如你说这是绿色的，那么你要么是故意胡说，要么就是“色盲”。我们可以用仪器来测量衣服的“波长”，用数据证明这是物理学定义的“蓝色”。

但还有另一种说法，说这种蓝色“特别好看”，这就不是事实陈述，而是在做价值判断了。要是有人提出不同的判断，坚持说这种蓝色难看极了，你很难用同样客观有力的证据来反驳。

这个简单的例子告诉我们两个道理：

第一，美和真属于不同的领域，没有统一的判断依据；
第二，事实判断具有客观性，在原则上可以通过证据和理性辩论让大家达成一致，而价值判断具有很强的主观色彩，理性辩论无法保证能解决争议，达成共识。

计算机的边界：图灵机限制/摩尔定律限制/信息论假设

关机计算机的极限主要来自这几个方面：

图灵机的极限：图灵机仅仅可以计算一部分问题，而图灵机是今天计算机的原型.图灵机无法计算一类让自己无法停机的问题。
香农信息论基本假设：计算机无法随机，无法表示无理数。
摩尔定律随着芯片体积缩小而失效：摩尔定律是由英特尔（Intel）创始人之一戈登·摩尔（Gordon Moore）提出来的。

其内容为：当价格不变时，集成电路上可容纳的元器件的数目，约每隔18-24个月便会增加一倍，性能也将提升一倍。

换言之，每一美元所能买到的电脑性能，将每隔18-24个月翻一倍以上，这一定律揭示了信息技术进步的速度。尽管这种趋势已经持续了超过半个世纪，摩尔定律仍应该被认为是观测或推测，而不是一个物理或自然法。

预计定律将持续到至少2015年或2020年。然而，2010年国际半导体技术发展路线图的更新增长已经放缓在2013年年底，之后的时间里晶体管数量密度预计只会每三年翻一番。

数学的边界：哥德尔不完备性

1900年的巴黎，在世纪交替之际，希尔伯特提出了他著名的23个问题。其中第二个问题——算术系统的相容性——正是他那雄心勃勃的“希尔伯特计划”的最后一步。这位数学界的巨人，打算让整个数学体系矗立在一个坚实的地基上，一劳永逸地解决所有关于对数学可靠性的种种疑问。

一切都为了回答三个问题：

数学是完备的吗？也就是说，面对那些正确的数学陈述，我们是否总能找出一个证明？数学真理是否总能被证明？
数学是一致的吗？也就是说，数学是否前后一致，不会得出某个数学陈述又对又不对的结论？数学是否没有内部矛盾？
数学是可判定的吗？也就是说，能够找到一种方法，仅仅通过机械化的计算，就能判定某个数学陈述是对是错？数学证明能否机械化？

希尔伯特明确提出这三个问题时，已是28年后的1928年。在这28年间，数学界在算术系统的相容性上没有多少进展。但希尔伯特没有等太久，仅仅三年后，哥德尔就得到了前两个问题的答案，尽管这个答案不是希尔伯特所希望看到的。

哥德尔的答案分两部分：

第一，任何包含了算术的数学系统都不可能同时拥有完备性和一致性，也就是说，如果一个数学系统包含了算术的话，要么它是自相矛盾的，要么存在一些命题，它们是真的，但我们却无法证明。这说明，希尔伯特的前两个问题不可能同时为真。在这里，“算术”有着精确的含义，就是皮亚诺公理，一组描述了自然数的公理。
第二，任何包含了算术的数学系统，如果它是一致的，那么我们不能在它的内部证明它本身的一致性。这说明，我们没有希望解决第二个问题。

这就是著名的哥德尔不完备性定理，与其说它回答了希尔伯特的前两个问题，不如说它阐述了为什么我们根本不可能解决这两个问题。

哥德尔给出了数学的极限：在数学的领地上，有些东西我们不知道，也不可能知道。

尴尬的是，这就给数学家们心头压上了一块大石：谁也不知道自己辛辛苦苦做了十几年的题目，会不会突然有一天被证明是在现有数学体系中不可判定的。