从神经元到注意力:人工智能的80年暗涌(上篇)
1956年的达特茅斯会议不仅诞生了“人工智能”这一术语,更奠定了此后六十年的研究范式。从McCulloch-Pitts神经元模型到Hebb学习规则,再到Shannon的信息论,本文带您回溯神经网络发展的三大理论基石,揭秘AlexNet横空出世前鲜为人知的思想脉络与技术演进。

序章:一个周六下午的震动
2012年9月30日,一个看起来平平无奇的周末,ImageNet大规模视觉识别挑战赛(ILSVRC)公布了当年的结果。
在此之前的两年里,全球顶尖的计算机视觉团队每年都在这项比赛中厮杀。他们使用的方法大同小异——手工设计特征提取器,再喂给支持向量机(SVM)之类的传统分类器。进步是缓慢的,每年前五名的错误率(top-5 error rate)大约在25%到26%之间徘徊,谁能降低一两个百分点,就算赢了。
然后,一个叫”SuperVision”的队伍交出了他们的成绩:15.3%。
这不是降低一两个百分点。这是把错误率直接砍掉了十个百分点以上——超过第二名整整9.8个百分点。在学术竞赛中,这种差距不叫”领先”,叫”碾压”。
SuperVision背后是三个人:一个乌克兰裔的博士生Alex Krizhevsky,一个后来成为OpenAI联合创始人的博士生Ilya Sutskever,以及他们的导师——一个已经在神经网络领域坚持了三十多年、被主流学术圈反复冷落的英国人,Geoffrey Hinton。
他们使用的方法,本质上就是一个更大、更深的神经网络,跑在两块英伟达的消费级显卡上。这个模型后来被称为AlexNet。
这一天之后,”深度学习”这个词从一小撮人的执念,变成了整个科技产业的信仰。
但这个故事,不是从2012年开始的。要真正理解那个周六下午发生了什么,我们需要回到将近七十年前——回到一个关于大脑如何工作的最基本问题。
第一章:当神经元遇见数学(1943—1949)
一、一篇改变一切的论文
1943年,第二次世界大战正在全球肆虐。在美国,一位神经生理学家和一位数学逻辑学家正在做一件看起来与战争毫无关系的事情:他们试图用数学来描述大脑中一个神经元是如何工作的。
神经生理学家叫Warren McCulloch,数学家叫Walter Pitts。
McCulloch当时已经是芝加哥大学的教授,年近五十,一生痴迷于一个问题:思维的物质基础是什么?他不满足于哲学式的空谈,他想要一个精确的、可计算的答案。Pitts则是一个天才少年——没有正式学历,十几岁时就因为在图书馆自学而引起了逻辑学家Bertrand Russell的注意,后来辗转来到芝加哥,成为McCulloch的合作者。
他们发表了一篇论文:《A Logical Calculus of the Ideas Immanent in Nervous Activity》(神经活动中内在思想的逻辑演算)。
这篇论文的核心思想,用今天的话说极其简单:一个神经元可以被建模为一个逻辑门。它接收多个输入信号(来自其他神经元的电信号),每个输入有不同的权重,如果加权求和超过某个阈值,它就”激活”(输出1);否则就”沉默”(输出0)。
这个模型当然是对真实神经元的极端简化。真实的神经元有复杂的树突结构、突触传递机制、各种神经递质的调节。但McCulloch和Pitts证明了一件惊人的事情:这种简化模型组成的网络,理论上可以计算任何可计算函数——它和图灵机在计算能力上是等价的。
换句话说,如果大脑是一台机器,那它至少不比我们已知的任何计算机弱。
这篇论文在当时的学术界引起的反响是复杂的。神经科学家觉得它太过简化,逻辑学家觉得它太过生物学化,计算机科学家(那时还没有这个学科)则不太确定该拿它怎么办。但它种下了一颗种子:也许,我们可以通过模拟大脑的结构来制造智能。
二、学习的法则
McCulloch-Pitts的神经元模型有一个巨大的局限:它是静态的。网络的连接权重是人工预先设定的,不会改变。这意味着它可以”计算”,但不能”学习”。
1949年,加拿大心理学家Donald Hebb出版了一本书:《The Organization of Behavior》(行为的组织)。在这本书中,他提出了一个看似简单却影响深远的假说,后来被浓缩为一句话:
“一起激活的神经元会连接在一起。”(Neurons that fire together wire together.)
这就是Hebb学习规则。它的意思是:如果神经元A的激活经常导致神经元B的激活,那么A到B的突触连接就会变强。这为”学习”提供了一个生物学上可信的机制——不需要一个工程师从外部设定权重,网络可以通过自身的活动来调整连接强度。
Hebb的规则当然也是高度简化的。但它解决了McCulloch-Pitts模型最致命的缺陷:它让网络有了自我调整的可能性。从静态的逻辑电路,变成了可以从经验中学习的系统。
如果说McCulloch和Pitts证明了”大脑可以计算”,Hebb则指出了”大脑如何学习”。这两块拼图合在一起,构成了日后所有人工神经网络的理论基石。
但在1949年,没有人知道该怎么把这些想法变成真正的机器。计算机本身还处于婴儿期——ENIAC刚在1946年诞生,占满了一整个房间,却只有不到二十个晶体管的计算能力。
让这些想法等待的,不仅是技术。还有一场关于”智能”究竟应该怎么造的根本性分歧。
但在这场分歧到来之前,还有一个人——不是神经科学家,也不是心理学家——从完全不同的角度,为”机器为什么可以理解语言”提供了最深层的理论基础。
三、信息的秘密
1948年,贝尔实验室的数学家Claude Shannon发表了一篇论文:《A Mathematical Theory of Communication》(通信的数学理论)。
这篇论文创立了信息论(Information Theory),其核心概念是熵(Entropy)——一个衡量信息量或不确定性的数学量。
Shannon的洞察可以用一个简单的思想实验来理解。
拿一句中文来说:“今天下午我们在会议室开会讨论新产品的方案”。现在做两个实验:
实验一:把每个字的笔画删掉一半。“今”变成半个”今”,“天”变成半个”天”。结果是什么?大多数人仍然能读懂这句话。每个字虽然残缺了,但在上下文中,你的大脑可以”补全”缺失的部分。
实验二:把整句话的字删掉一半。“今天___我们___会议___开会___新产___方案”。结果是什么?理解难度急剧上升,甚至可能完全无法恢复原意。
为什么同样删掉50%的信息,一个可以恢复,另一个不行?
Shannon给出了精确的回答:因为自然语言充满了冗余(Redundancy)。
语言不是随机的符号序列。当你看到”今天下午”,“我们”出现的概率就远高于”月球”。当你看到”在会议室”,下一个词是”开会”的概率远高于”游泳”。每一个词都对后面的词施加了统计约束——Shannon将这种约束量化为信息熵。
Shannon估算,英语文本的实际信息熵大约是每个字母1到1.5比特——远低于完全随机文本的理论最大值(约4.7比特/字母)。中文的情况类似。这意味着自然语言中大约有60%到75%的内容是”可预测”的冗余。
这个发现的深远意义在于:如果语言大部分是可预测的,那”预测”就不是一个肤浅的统计把戏,而是一种触及语言本质结构的能力。
一个能准确预测下一个词的系统,必然已经理解了语法(否则它会预测出不合语法的词)、语义(否则它会预测出语义不通的词)、甚至常识和世界知识(否则它会预测出事实错误的词)。预测能力和理解能力,在Shannon的框架下,是同一枚硬币的两面。
这就是为什么七十年后,GPT”预测下一个词”这个看似最无聊的训练目标,竟然能催生出接近通用智能的系统。Shannon在1948年就揭示了底层原理:语言的统计结构中编码了几乎全部的语言知识。捕获这种统计结构——也就是学会预测——就等于学会了语言本身。
Shannon本人并没有直接研究人工智能(虽然他写过一篇关于计算机下棋的论文,并且是达特茅斯会议的四位发起人之一)。但他的信息论为后来的一切——从自然语言处理到机器学习到大语言模型——提供了最根本的理论地基。
McCulloch和Pitts告诉我们:大脑可以计算。Hebb告诉我们:大脑可以学习。Shannon告诉我们:语言是可预测的,而预测等于理解。
这三块基石,在1949年就已经全部就位了。但要把它们组合成一台真正的智能机器,人类还需要再等将近七十年。
第二章:命名之夏(1956)
一、一份野心勃勃的提案
1955年8月31日,一份两页纸的提案被寄到了洛克菲勒基金会。提案的标题是:《A Proposal for the Dartmouth Summer Research Project on Artificial Intelligence》。
“Artificial Intelligence”——人工智能。这个词,就这样第一次出现在了正式的学术文件中。
提案的发起人是四个人:
John McCarthy,达特茅斯学院的年轻数学家,提案的主要执笔者,也是”人工智能”这个词的创造者。他后来说,选这个名字是为了和当时流行的”控制论”(Cybernetics)和”自动机理论”(Automata Theory)划清界限——他要建立一个全新的学科。
Marvin Minsky,哈佛大学的数学博士,24岁时就建造了世界上第一个神经网络硬件模拟器(SNARC)。他和McCarthy在普林斯顿读研究生时就是朋友,两人经常彻夜讨论”机器能否思考”这个问题。
Nathaniel Rochester,IBM的工程师,设计了IBM 701(IBM第一台商用科学计算机)的硬件。他代表的是工业界对这个问题的兴趣。
Claude Shannon,贝尔实验室的传奇人物,信息论的创始人。他在1950年就写过一篇关于如何编程让计算机下棋的论文。
提案中有一段话,定义了这次会议——也定义了此后六十年整个学科——的核心信念:
“这项研究基于一个猜想:学习的每一个方面,或者智能的任何其他特征,原则上都可以被精确描述,从而可以制造一台机器来模拟它。”
这句话的野心惊人。它没有说”某些方面”,它说的是”每一个方面”。它假定智能不存在任何神秘的、不可还原的成分——一切都可以被形式化,被算法化,被机器复现。
二、一个被高估又被低估的夏天
1956年6月18日,会议在达特茅斯学院正式开幕。原计划是八周的密集研讨,实际上参与者来来去去,大约有十几个人在不同时间出席。
这次会议产生了几个重要的成果:
Allen Newell和Herbert Simon带来了他们的”逻辑理论家”(Logic Theorist)程序——第一个能够证明数学定理的计算机程序。它成功证明了怀特海和罗素《数学原理》中的38个定理中的36个,甚至给其中一个定理找到了比原书更优雅的证明。Newell和Simon对此非常兴奋。Simon甚至在会前就对学生们宣布:“这个圣诞节,我和Newell发明了一台会思考的机器。”
Arthur Samuel展示了他的跳棋程序,它可以通过自我对弈来提高棋力——这是最早的”强化学习”雏形之一。
但会议也暴露了一个根本性的分歧,这个分歧将在此后数十年塑造整个AI领域的走向。
一派以McCarthy和Minsky为代表,他们相信智能的本质是符号操作——逻辑推理、规则应用、知识表示。大脑的生物学结构不重要,重要的是它实现的功能。就像你不需要理解发动机的物理学就能学会开车,你不需要理解神经元就能制造智能。这一派后来被称为符号主义(Symbolicism)或”好老式人工智能”(GOFAI, Good Old-Fashioned AI)。
另一派的声音在达特茅斯不那么响亮,但它的根基在McCulloch-Pitts和Hebb的工作中已经种下。这一派相信智能来自大量简单单元的连接和交互——不是靠规则,而是靠学习。这就是后来的连接主义(Connectionism),也就是神经网络的思想根源。
在达特茅斯之后,符号主义占据了上风。McCarthy去了MIT(后来创建了斯坦福AI实验室),Minsky也在MIT建立了他的AI实验室。这两个地方,加上Newell和Simon所在的卡内基梅隆大学,成为了早期AI研究的三大重镇。
政府拨款涌入,媒体报道热烈。人们真切地相信,在十年或二十年内,机器就能达到人类水平的智能。
他们不知道的是,第一个严冬正在赶来的路上。而在严冬到来之前,还有一段短暂的、属于神经网络的黄金时代。
第三章:感知机的黄金与灰烬(1957—1971)
一、海军的新设备
1957年,一个叫Frank Rosenblatt的年轻心理学家在康奈尔航空实验室里造出了一台机器。
Rosenblatt只有29岁,精力充沛,魅力四射,对自己的发明充满了近乎传教士般的热情。他的机器叫”感知机”(Perceptron)——本质上就是McCulloch-Pitts神经元模型的一个可学习版本。它接收输入,通过可调节的权重进行加权求和,然后输出结果。关键在于,它有一个学习算法:如果它判断错了,就自动调整权重,下次争取做对。
这听起来很简单。但在1957年,这是革命性的。因为在此之前,所有的计算机程序都需要人类程序员明确告诉机器每一步该做什么。感知机第一次证明了:机器可以从数据中自己”学会”分类。
1958年7月,美国海军研究办公室举行了一场新闻发布会,展示了感知机的能力。一台IBM 704计算机——重达五吨、占据整个房间——被喂入了一系列穿孔卡片。经过50次训练,计算机学会了区分左边标记和右边标记的卡片。
第二天,《纽约时报》刊登了一则报道,标题是:
“NEW NAVY DEVICE LEARNS BY DOING: Psychologist Shows Embryo of Computer Designed to Read and Grow Wiser”(海军新设备在实践中学习:心理学家展示了一台能阅读并变得更聪明的计算机雏形)
报道说,海军展示了”一台电子计算机的雏形,预计它将能够行走、交谈、看见、书写、自我复制,并且意识到自己的存在”。
这些描述当然荒谬得离谱。感知机能做的只是最简单的模式分类。但Rosenblatt自己的表态也助长了这种狂热——他对媒体暗示感知机最终将能够识别人脸、翻译语言、甚至做出创造性的发现。
一个几十岁的年轻人,一台五吨重的机器,和一个关于”机器学习”的全新许诺。这是人工智能领域的第一次媒体狂潮。
二、布朗克斯科学高中的两个男孩
但在这片热潮中,有一个人冷冷地看着这一切。
Marvin Minsky。
Minsky和Rosenblatt是老相识——不只是同行,是少年时代的校友。他们都毕业于布朗克斯科学高中(Bronx High School of Science),只差一届。这所纽约的公立精英高中盛产科学家——八位诺贝尔奖得主从这里走出。
Minsky在达特茅斯会议后全力投入符号主义AI的阵营。在他看来,Rosenblatt的感知机是一个被严重高估的玩具。它能做简单分类?好。但它能做逻辑推理吗?能处理抽象概念吗?能解决真正的智能问题吗?
Minsky不打算只在会议上说说。他决定从数学上彻底证明感知机的局限性。
从1965年左右开始,Minsky和他的同事Seymour Papert就在各种学术会议上散发预印本,系统地攻击感知机的理论基础。1969年,他们的成果正式出版,书名就叫:《Perceptrons: An Introduction to Computational Geometry》。
这本书的核心论证是精确而致命的:单层感知机无法学习”异或”(XOR)函数——一个极其简单的逻辑运算。如果输入A和B相同,输出0;如果不同,输出1。Minsky和Papert证明了,不存在任何一组权重能让单层感知机正确计算这个函数。
从数学上说,这意味着单层感知机只能处理线性可分的问题——它能画一条直线把两类数据分开,但如果分界线是弯曲的,它就无能为力了。
更关键的是,Minsky和Papert在书中加了一个推测——注意,只是推测,不是证明——他们认为,多层感知机(即多层神经网络)恐怕也难以克服这些根本性的局限。
这个推测后来被证明是错误的。多层网络配合适当的学习算法完全可以处理XOR乃至任意复杂的非线性问题。但在1969年,没有人拿得出有效训练多层网络的方法(反向传播算法要到1986年才被广泛认知),所以Minsky的推测在当时听起来非常有说服力。
三、寒冬降临
《Perceptrons》出版后的效果是毁灭性的。
美国和英国的政府资助机构大幅削减了对神经网络研究的拨款。1973年,英国政府委托James Lighthill撰写的评估报告(Lighthill Report)对AI领域给出了极为负面的结论,直接导致英国几乎所有AI研究经费被砍。美国国防高级研究计划局(DARPA)也在同一时期大幅缩减了对AI的投资。
研究生们被导师告诫:不要碰神经网络,那是死路一条。想要拿到教职、获得资助,就去做符号AI。
这就是所谓的第一次AI寒冬。
而Frank Rosenblatt本人,没能看到这场寒冬的全貌。1971年7月11日——他43岁生日那天——他在切萨皮克湾驾驶一艘名叫”剪水鸥号”(Shearwater)的帆船时溺水身亡。
他的死是一个事故。但在隐喻的层面上,它几乎太过完美地呼应了他所代表的那条道路的命运:一个充满热情的先驱者,一个被提前终结的未来。
Rosenblatt去世后,他的工作被遗忘了将近二十年。直到后来的人重新翻开这段历史,才意识到他在1957年就触及了多少正确的直觉。康奈尔大学在2019年发表了一篇纪念文章,标题是:“Professor’s Perceptron Paved the Way for AI — 60 Years Too Soon”(教授的感知机为AI铺平了道路——早了六十年)。
第四章:猫的眼睛看见了什么(1959—1980)
一、手术室里的意外发现
就在Rosenblatt的感知机引发媒体狂潮的同一时期,在波士顿的哈佛医学院,两个神经科学家正在做一个看起来完全无关的实验。
David Hubel是加拿大人,Torsten Wiesel是瑞典人。他们的研究对象是猫的大脑。
具体来说,他们想搞清楚猫的视觉皮层是如何处理视觉信息的。实验方法是:在一只麻醉的猫的初级视觉皮层(V1区)插入微电极,然后在猫的眼前展示不同的视觉刺激——光点、光条、移动的边缘——同时记录单个神经元的电活动。
1959年,他们发表了一篇划时代的论文,报告了一个关键发现:猫的视觉皮层中存在两种截然不同的神经元。
简单细胞(Simple Cells):只对特定方向的线条或边缘做出反应。比如,某个简单细胞只在看到45度角的边缘时激活,换个角度就沉默。每个简单细胞就像一个高度专门化的”特征检测器”——它只检测一种非常具体的视觉特征。
复杂细胞(Complex Cells):也对特定方向做出反应,但它不在乎边缘出现在视野中的具体位置。不管那条45度的线出现在左边、右边还是中间,它都会激活。复杂细胞实现了某种”位置不变性”——它提取的是更抽象、更概括的特征。
Hubel和Wiesel由此提出了一个模型:视觉信息在大脑中是层级处理的。低层的简单细胞检测最基本的局部特征(边缘、方向),然后把信号传递给高层的复杂细胞,后者将这些局部特征整合成更抽象、更具位置不变性的表征。从简单到复杂,从局部到全局,一层一层向上抽象。
这项工作在1981年获得了诺贝尔生理学或医学奖。
但它对人工智能的意义——尤其是对计算机视觉和深度学习的意义——在当时完全没有被AI界注意到。因为1959年正好是感知机的风头正劲之时,而Hubel和Wiesel的工作是纯粹的神经科学,发表在生理学期刊上,和当时的AI社区没有交集。
要等到二十年后,一个在日本的工程师才会把这个发现变成一台机器。
二、新认知机:从猫的大脑到人工视觉
1980年,日本NHK放送技术研究所的工程师Kunihiko Fukushima发表了一篇论文,提出了一个叫做”新认知机”(Neocognitron)的神经网络模型。
Fukushima明确表示,他的灵感直接来自Hubel和Wiesel的发现。他在网络中设计了两种类型的层:
S层(S-cells):对应简单细胞。每个S层的神经元检测输入中的特定局部特征——某个方向的边缘、某个形状的片段。
C层(C-cells):对应复杂细胞。C层对S层的输出进行”池化”——即使特征的位置发生了小范围的移动,C层仍然能够响应。这实现了Hubel和Wiesel所观察到的”位置不变性”。
整个网络是层层堆叠的:S层→C层→S层→C层→……低层检测简单特征(线条、角),高层整合出复杂特征(圆弧、交叉),最终输出层做出分类判断。
Fukushima用这个网络来识别手写数字——这在当时是一个标准的模式识别任务。结果相当不错。更重要的是,他证明了一件事:Hubel和Wiesel在猫脑中发现的”简单→复杂”的层级结构,可以被工程化地实现为一个人工神经网络,并且这个网络在实际的模式识别任务上是有效的。
新认知机是今天所有”卷积神经网络”(CNN)的直系祖先。它的S层就是后来CNN中的”卷积层”(Convolution Layer),C层就是”池化层”(Pooling Layer)。
但新认知机有一个关键缺陷:它的学习方式是无监督的,训练过程缓慢且不稳定。要让”Hubel-Wiesel架构”真正大放异彩,还需要另一个关键零件——一个高效的学习算法。
这个零件,要到1986年才出现。
第五章:两次寒冬与专家的陷阱(1973—1993)
一、第一次寒冬:梦想的代价
1973年,英国数学家James Lighthill应科学研究委员会之邀,撰写了一份对AI研究的评估报告。这份报告的结论是毁灭性的:AI领域做出的承诺远远超过了它的交付能力,大部分研究在规模化到真实问题时都会失败。
Lighthill报告直接导致英国几乎砍掉了所有AI研究经费。美国国防高级研究计划局(DARPA)也在同一时期大幅收缩了AI方面的拨款。学术界的信号很明确:AI过度承诺了,现在是还债的时候。
这就是第一次AI寒冬(约1974—1980)。神经网络首当其冲——在Minsky和Papert的《Perceptrons》已经从理论上”判了死刑”之后,资金的断流彻底把它推入了冰封期。符号AI虽然也受到波及,但损失相对较小,因为它至少还有一些可以演示的成果。
二、专家系统:最后的繁荣
1980年代,AI领域经历了一次回暖,但这次回暖的主角不是神经网络,而是专家系统(Expert Systems)。
专家系统的思路简单直接:找来某个领域的人类专家(比如医生、地质学家、工程师),把他们的知识编码成”如果-那么”规则(if-then rules),然后让计算机按这些规则做推理。
最著名的早期案例是1970年代斯坦福大学的MYCIN系统——它能根据症状和化验结果推荐抗生素处方,准确率据称超过了一些初级医生。还有R1/XCON,帮DEC公司配置计算机订单,据说每年为公司节省数千万美元。
企业界为之疯狂。到1985年,全球有超过十亿美元涌入AI产业。专门运行AI程序的LISP机器成了热门产品,一台售价超过十万美元。日本政府启动了雄心勃勃的”第五代计算机”计划,试图打造基于逻辑推理的下一代计算机。美国政府以”战略计算倡议”(Strategic Computing Initiative)回应,DARPA重新大笔投入。
然而,专家系统有一个致命的结构性缺陷:它的所有知识都需要人类手工编码。
一个医疗诊断系统需要医生把几十年的临床经验拆解成一条条规则。一个制造业质量控制系统需要工程师把每种缺陷的判断标准写成逻辑链条。这个过程被称为”知识获取瓶颈”(Knowledge Acquisition Bottleneck)——它极其耗时、昂贵,而且永远不可能完备。
更糟糕的是,专家系统极其脆弱。一旦遇到规则库没有覆盖的情况,它不会像人类专家那样做出合理的推测,而是直接给出荒谬的答案或者崩溃。它没有常识,没有灵活性,无法处理规则之外的任何意外。
三、第二次寒冬:十万美元的纸镇
1987年,崩溃来了。
引爆点是硬件市场的崩塌。整个1980年代,LISP机器——那些售价十万美元以上的AI专用计算机——是整个产业的硬件基础。但到1987年,苹果和IBM的通用台式机已经强大到可以运行同样的AI软件。为什么要花十万美元买一台专用机器,当五千美元的台式机就能做同样的事?
市场在一年之内蒸发了五亿美元。LISP机器的旗舰公司Symbolics在1991年破产。到1993年底,超过三百家AI公司倒闭、破产或被收购。
日本的第五代计算机计划没有达成任何预定目标,悄然收场。美国的战略计算倡议也大幅缩水。DARPA的AI投资再次萎缩,这一次牵连了依赖国防经费的Symbolics等公司。
这就是第二次AI寒冬(约1987—1993)。
自然语言处理项目被缩减,计算机视觉研究几乎停滞,神经网络研究——本来就还在第一次寒冬的阴影中——更是雪上加霜。
在这个人人避之不及的领域里,有几个人选择了留下来。
第六章:逆流而上的人(1986—2006)
一、反向传播:被”发现”了三次的算法
在连接主义的历史上,如果要选一个最重要的算法,几乎所有人都会指向同一个名字:反向传播(Backpropagation)。
反向传播的核心思想是:如果网络的输出和正确答案之间有误差,那就把这个误差”反向传播”回网络的每一层,计算每个权重对误差的贡献有多大,然后相应地调整权重。这就是微积分中链式法则的工程化应用。
这个想法并不是某一个人在某一天发明的。它被独立发现了至少三次:1970年,芬兰的Seppo Linnainmaa在硕士论文中描述了自动微分的反向模式;1974年,哈佛大学的Paul Werbos在博士论文中明确将其应用于神经网络训练;但直到1986年,David Rumelhart、Geoffrey Hinton和Ronald Williams在《Nature》上发表了那篇里程碑式的论文——《Learning Representations by Back-Propagating Errors》——反向传播才真正被AI社区广泛认知和采用。
这篇论文的意义不仅在于算法本身,更在于它解决了Minsky在1969年提出的质疑:多层网络可以学习吗?答案是肯定的。通过反向传播,多层网络可以自动学习到有意义的内部表征——隐藏层中的神经元会自发地学会提取输入数据中的重要特征。
Minsky说感知机不能处理XOR?没问题。加一个隐藏层,用反向传播训练,XOR轻松解决。不仅是XOR,任意复杂的非线性函数都可以——后来的”万能逼近定理”(Universal Approximation Theorem)严格证明了这一点。
反向传播的出现,让连接主义阵营重新获得了呼吸的空间。但这只是喘息,不是复兴。因为在1986年,计算机的算力仍然极其有限,可用的数据也很少。多层网络在理论上可以学习任何东西,在实践中却经常训练不动——要么太慢,要么陷入局部最优,要么干脆崩溃。
二、一个法国人在贝尔实验室
1988年,一个法国人加入了美国新泽西州霍尔姆德尔的AT&T贝尔实验室。他叫Yann LeCun,刚从巴黎第六大学取得博士学位,师从Geoffrey Hinton。
LeCun在贝尔实验室做的事情,是把反向传播和Fukushima新认知机的架构思想结合起来。他的做法是:把Fukushima的S层换成用反向传播训练的”卷积层”,把C层换成”池化层”,整个网络用标注好的数据端到端训练。
1989年,LeCun团队得到了一个来自美国邮政局的实际任务:识别信封上手写的邮政编码。邮政局提供了9,298张来自纽约布法罗分拣站的手写数字扫描图。LeCun用其中7,291张训练网络,2,007张用于测试。
结果:准确率95%。
这个网络后来被称为LeNet——它是第一个成功的卷积神经网络(CNN),也是第一个在商业环境中真正落地的深度学习应用。LeNet后来被用于ATM机的支票识别——直到今天,一些ATM机里仍然在运行LeCun和他的同事Leon Bottou在1990年代写的代码。
LeNet证明了两件事:第一,Hubel-Wiesel式的层级视觉处理架构确实有效;第二,如果有反向传播作为学习算法,这个架构可以通过数据自动学习特征提取,而不需要像Fukushima那样依赖无监督学习。
从猫的视觉皮层到邮政编码识别——一条从神经科学到工程应用的线索,在三十年后终于接通了。
但这条线索接通之后,又迅速陷入了沉寂。
三、消失的梯度与遗忘的记忆
反向传播解决了多层网络的训练问题,但没有解决深层网络的训练问题。
当网络变得更深——比如超过五六层——一个致命的问题出现了:梯度消失(Vanishing Gradient)。反向传播的信号在逐层回传时不断缩小,到了靠近输入的底层时几乎变成了零。底层的权重得不到有效更新,学习过程停滞。
网络是”深”不下去的。
1991年,一个在慕尼黑工业大学读硕士的德国学生Sepp Hochreiter在他的毕业论文中系统分析了梯度消失问题。这篇论文用德语写成,所以在英语世界几乎没有传播。但Hochreiter没有停步。1997年,他和导师Jürgen Schmidhuber一起提出了一个精巧的解决方案:长短期记忆网络(Long Short-Term Memory, LSTM)。
LSTM的核心创新是在网络中引入了”记忆单元”(Memory Cell)——一个可以长期保持信息的结构,通过”门”机制来控制信息的写入、读取和遗忘。数学上,它保证了梯度可以沿着一条”恒定误差流”(Constant Error Carousel)通过任意多个时间步而不衰减。
LSTM后来成为了序列建模的标准工具——机器翻译、语音识别、文本生成,几乎所有需要处理时间序列的任务都用到了它。它统治了这些领域将近二十年,直到2017年被Transformer取代。
但在1997年,LSTM和整个神经网络领域一样,处于寒冬之中。论文发了,但没几个人看。研究继续着,但在学术界和工业界的聚光灯之外。
四、三个固执的人
在整个1990年代到2000年代初期,主流AI社区的共识是:神经网络是一个已经被证伪的方向。它在简单任务上可以工作,但在复杂任务上不可靠,训练困难,理论基础薄弱。未来属于支持向量机(SVM)、随机森林之类的”浅层”机器学习方法,或者传统的符号AI。
在这样的氛围中,有三个人选择了留在神经网络的战壕里。
Geoffrey Hinton。这个英国人从1970年代就开始研究神经网络——那时候他的博士导师Christopher Longuet-Higgins已经转向了符号主义阵营,劝他放弃神经网络去做”正经”的AI研究。Hinton没有听。他在整个职业生涯中只做了一件事:证明多层神经网络可以学习。他后来回忆说:“几十年来,AI社区认为神经网络是死路一条,但我觉得,如果大脑能做到,那一定有办法让计算机也做到。”
Yann LeCun。LeNet在商业上的成功并没有给他带来学术界的认可。在整个1990年代,他的CNN在学术会议上被冷遇——审稿人认为神经网络已经过时了。LeCun离开贝尔实验室后于2003年加入纽约大学,继续他的卷积网络研究。
Yoshua Bengio。蒙特利尔大学的教授,Hinton的学生。他在1990年代系统研究了深层网络的训练困难,和学生一起严格地分析了梯度消失问题的数学根源,为后来的突破奠定了理论基础。
这三个人——加拿大、法国和加拿大的三所大学——成为了深度学习寒冬中仅存的火种。他们互相引用对方的论文,互相给对方的学生写推荐信,在主流学术界的冷漠中形成了一个小小的”地下网络”。
有一个机构对他们的坚持至关重要:加拿大高等研究院(CIFAR)。在其他所有资助机构都对神经网络关上大门的时候,CIFAR在2004年资助了一个项目,叫做”神经计算与自适应感知”(Neural Computation and Adaptive Perception, NCAP),由Hinton领导。这个项目给了他们继续研究的经费,更重要的是,给了他们一个机构性的合法身份:在整个AI界都认为他们在做无用功的时候,CIFAR说——我们认为你们可能是对的。
2006年,Hinton终于等到了他的突破时刻。
五、破冰:深度信念网络
2006年,Hinton和他的学生Ruslan Salakhutdinov在《Science》上发表了一篇论文:《Reducing the Dimensionality of Data with Neural Networks》。
这篇论文提出了一个巧妙的方法:不要试图一次性端到端训练整个深层网络(这会导致梯度消失),而是先逐层预训练。先用无监督学习训练第一层,学到有意义的特征表示后固定下来,再训练第二层,依此类推。等所有层都预训练完毕后,再用反向传播对整个网络进行端到端的微调。
这个方法的关键洞察是:预训练为每一层提供了一个好的初始化。有了好的起点,反向传播就不容易陷入糟糕的局部最优,梯度消失的问题也大大缓解。
论文的效果立竿见影。用这种方法训练的深层网络(Hinton称之为”深度信念网络”,Deep Belief Networks)在降维任务上击败了主成分分析(PCA)——这是一个已经统治了几十年的经典方法。
这篇论文标志着深度学习这个概念的正式诞生——”深度”的意思就是网络有很多层,”学习”的意思是权重通过数据自动获得。Hinton特意选了这个名字,因为”神经网络”这个词已经被污名化了太久。
2006年的《Science》论文打开了一扇门。但要让整个世界看到门后面的风景,还需要两样东西:数据和算力。
第七章:一亿四千万张图片(2006—2012)
一、一个逆流的决定
2006年前后,计算机视觉领域的主流方法是这样的:研究者手工设计各种”特征提取器”——比如SIFT、HOG、SURF等算法——从图像中提取出数学特征,然后把这些特征喂给SVM或随机森林之类的分类器。这种方法叫做”特征工程”(Feature Engineering),它的核心假设是:特征由人类智慧设计,分类器只负责做最后的判断。
几乎所有研究者都在优化算法——更好的分类器、更聪明的特征提取方式、更精巧的数学模型。
但在斯坦福大学,一个来自中国的年轻教授做了一个完全不同的选择。
李飞飞当时还是斯坦福计算机系的助理教授,尚未获得终身教职。按照学术生存的逻辑,她应该把时间花在发表论文和申请基金上。但她却把几乎全部精力投入了一个在同行看来毫无意义的项目:建一个巨大的图像数据库。
她的逻辑和主流完全相反:也许不是算法不够好,而是数据不够多。如果一个三岁的孩子在学会识别”猫”之前已经看过了成千上万只猫的图像,为什么我们期望一个算法只用几百张图片就能学会同样的事情?
这个项目叫做ImageNet。
李飞飞的目标是覆盖普林斯顿大学WordNet中的每一个名词——超过两万个类别——每个类别有成百上千张标注好的图像。总共需要标注的图像量级是数千万张。
在2007年的学术环境中,这是一个疯狂的想法。没有自动标注工具,每一张图片都需要人类来看、来判断、来标注。用研究生来做?一个研究生一天大概能标注几百张图片,按这个速度算,完成整个ImageNet需要数十年。
李飞飞的解决方案是:Amazon Mechanical Turk——亚马逊的众包平台,可以把简单的标注任务分发给全球的网络工人,每标注一张图片只需支付几美分。
这个策略奏效了。从2008年7月的零张图片开始,到2010年4月,ImageNet已经拥有超过1100万张图像、覆盖15,000多个类别。来自167个国家的49,000名众包工人参与了标注工作。每张图片被至少三个人独立标注,以确保一致性。
二、竞赛
2010年,李飞飞做了另一个关键决定:基于ImageNet举办一个年度图像分类竞赛——ImageNet大规模视觉识别挑战赛(ILSVRC)。
参赛队伍需要让自己的算法从1000个类别中正确识别图像内容。评判标准是”top-5错误率”——算法给出的前五个猜测中,只要有一个正确就算对。
2010年和2011年的冠军队伍使用的都是传统方法——手工特征加浅层分类器。错误率从28%逐步降到25%左右。进步是稳定的,但缓慢的。
然后2012年来了。
三、两块显卡
这就是本文开头的那个故事。
Alex Krizhevsky是Hinton在多伦多大学的博士生,一个编程能力极强、对GPU计算有深入了解的年轻人。他做的事情,在概念上很简单:把LeCun在1989年做的卷积神经网络放大——更多层、更多参数——然后用ImageNet的海量数据来训练。
但”放大”需要算力。传统的CPU训练一个这种规模的网络需要数周甚至数月。Krizhevsky的关键创新是使用GPU(图形处理器)来加速训练。GPU本来是为游戏设计的——它擅长的是同时进行大量简单的并行计算,比如渲染屏幕上每一个像素。而神经网络的训练本质上也是大量简单运算的并行执行——矩阵乘法、加权求和、激活函数计算——和GPU的计算特性天然匹配。
Krizhevsky用两块英伟达GeForce GTX 580显卡——总共不到一千美元的消费级硬件——训练了一个拥有6000万参数和65万个神经元的卷积神经网络。
AlexNet在ImageNet 2012竞赛中取得了15.3%的top-5错误率,比第二名低了将近十个百分点。这不是增量式的进步——这是断崖式的碾压。
更重要的是,AlexNet的成功验证了一个简单而深刻的公式:
深度网络 + 大规模数据 + GPU算力 = 前所未有的性能
这三个要素缺一不可。没有Hinton和LeCun三十年来对深度网络理论的坚持,就没有架构基础。没有李飞飞的ImageNet,就没有训练数据。没有GPU计算的意外发现,就没有把理论变成现实的算力。
2012年之后,一切都变了。
学术界在一两年内几乎全面转向深度学习。顶级会议上,曾经拒绝神经网络论文的审稿人们现在都在用神经网络。工业界也迅速跟进:2013年,谷歌收购了Hinton的创业公司DNNresearch;同年,Facebook挖来了LeCun担任AI研究院院长;2014年,百度请到了Andrew Ng(吴恩达)领导其AI实验室。
那些在寒冬中被嘲笑的人,突然成了所有人争抢的对象。
第八章:注意力就是一切(2013—2017)
一、深度学习的局限
AlexNet打开了深度学习的闸门。在接下来的几年里,CNN在图像领域攻城略地——2013年的ZFNet、2014年的VGGNet和GoogLeNet、2015年的ResNet,每年都在ImageNet上刷新纪录。到2015年,ResNet的错误率已经降到了3.57%,超过了人类的平均水平(约5%)。
但在另一个领域——自然语言处理(NLP)——深度学习的进展却受到了根本性的限制。
语言和图像不同。图像是空间数据,一个像素主要和它周围的像素有关系。CNN通过局部卷积核就能很好地捕捉这种空间关系。但语言是序列数据,而且序列中的词之间存在长距离依赖——“那个我昨天在机场偶遇的、穿红色外套的女人,她是我的高中同学”——”她”和”女人”之间隔了二十个词,但它们指的是同一个人。
处理序列数据的标准工具是循环神经网络(RNN)和它的增强版LSTM。它们通过”循环”结构——每一步的输出作为下一步的输入——来逐词处理文本。
问题在于:这种逐步处理的方式天然是串行的。要处理第100个词,你必须先处理前99个。这意味着两件事:第一,训练速度很慢,无法充分利用GPU的并行计算能力;第二,尽管LSTM通过门机制缓解了梯度消失问题,但对于真正很长的序列(几百个词以上),信息仍然会衰减。
二、注意力机制
2014年,Dzmitry Bahdanau、KyungHyun Cho和Yoshua Bengio提出了一个优雅的改进方案:注意力机制(Attention Mechanism)。
他们的出发点是机器翻译。传统的序列到序列(seq2seq)模型先用一个编码器(Encoder)把整个源句子压缩成一个固定长度的向量,再用一个解码器(Decoder)从这个向量生成目标句子。问题是,一个固定长度的向量很难承载一个长句子的全部信息——这就像是让你先把一整本书的内容记在一张便条纸上,然后只看这张便条纸来复述全书。
注意力机制的核心思想是:在生成每个目标词时,让解码器回头”看”源句子的每一个位置,并自动决定当前应该关注哪些位置。
比如翻译”The cat sat on the mat”这句话时,在生成中文的”猫”字时,注意力机制会给源句子中的”cat”分配最高的注意力权重;在生成”垫子”时,它会把注意力集中在”mat”上。
这个想法立刻带来了显著的性能提升,尤其是在长句翻译上。但Bahdanau的注意力机制仍然是建立在RNN/LSTM之上的——注意力只是一个辅助模块,序列的基本处理方式仍然是串行的。
三、八个人的论文
2017年6月12日,一篇名为《Attention Is All You Need》的论文被提交到了arXiv。
作者是八个人,来自Google Brain和Google Research:Ashish Vaswani, Noam Shazeer, Niki Parmar, Jakob Uszkoreit, Llion Jones, Aidan N. Gomez, Łukasz Kaiser, 和Illia Polosukhin。
论文的核心观点可以用标题来概括:注意力就是你所需要的一切。不需要循环,不需要卷积,只要注意力机制。
他们提出的架构叫做Transformer。
Transformer的关键创新是自注意力(Self-Attention)。在传统的注意力机制中,注意力是在编码器和解码器之间发挥作用的——解码器关注编码器的输出。但在Transformer中,即使在编码器内部,每个词也会对序列中的所有其他词计算注意力——包括它自己。
这意味着什么?意味着模型可以在一步之内捕捉序列中任意两个位置之间的关系,无论它们相隔多远。“她”和二十个词之前的”女人”?在Transformer看来,它们之间的距离和相邻的两个词没有区别——都是一步之遥。
更重要的是,这种计算是完全并行的。不需要像RNN那样逐步处理,Transformer可以同时处理序列中的所有位置。这意味着它可以充分利用GPU的并行计算能力,训练速度大幅提升。
具体来说,Transformer的工作流程是这样的:
第一步:词嵌入。把每个词转换成一个数字向量。这个过程分两部分——先通过词嵌入矩阵把词变成”词源向量”(捕捉词的语义),再加上”位置向量”(编码词在句子中的位置)。两者相加就是这个词的初始表示。
第二步:自注意力处理。对每个词生成三个向量——查询(Query)、键(Key)和值(Value),通常简称QKV。Query是”我在找什么?“,Key是”我能提供什么?”,Value是”我的实际内容是什么”。通过计算每对Query和Key之间的相似度,得到注意力权重,再用这些权重对Value进行加权求和,就得到了每个词考虑了全局上下文之后的新表示。
为了让模型同时关注多种不同类型的关系,Transformer使用了多头注意力(Multi-Head Attention)——把QKV分成多个”头”,每个头独立计算注意力,最后拼接在一起。就像一个阅读者同时从语法、语义、语调等多个角度理解一句话。
第三步:前馈网络。自注意力的输出经过一个前馈神经网络(MLP,多层感知器),这一步是对每个位置独立进行的非线性变换,进一步提取特征。
第四步:堆叠。以上的”自注意力 + 前馈网络”构成一个Transformer块。原始论文中,编码器和解码器各堆叠了六个这样的块。层数越多,模型就能学到越深层次的语言规律。
第五步:输出。最终通过一个线性层和softmax函数,把最后一层的输出转换成词汇表上的概率分布——每个词被选为下一个词的概率。通过温度参数(temperature)和top-k采样等机制,控制输出的随机性和多样性。
Transformer在机器翻译任务上的表现优于之前所有基于RNN的模型。但论文发表时,没有多少人预见到它会带来多大的变革。
四、一个架构统一一切
事后看来,Transformer的真正力量不在于它在翻译任务上好了多少百分点,而在于它是一个极其通用的架构。
CNN擅长图像,RNN擅长序列,但Transformer不挑食——它的自注意力机制本质上是一种通用的”关系建模”方式,可以处理任何类型的输入,只要你能把它排成一个序列。文本是词的序列,图像可以被切成小块(patch)排成序列,语音是帧的序列,蛋白质是氨基酸的序列,甚至围棋棋盘也可以被编码成序列。
更关键的是,Transformer的全并行计算特性使得它可以高效利用越来越强大的GPU集群进行训练。这意味着规模化(scaling)变得可行——你可以不断增加模型的参数量、训练数据量和计算量,性能就会持续提升。
这是一个看起来简单但颠覆性的发现:也许智能不需要精巧的算法设计,只需要一个足够通用的架构加上足够大的规模。
在Transformer诞生之前,AI的每一个子领域——视觉、语言、语音、推理——都有自己的专用架构和方法论。Transformer之后,一切开始汇聚。
尾声:通往GPT之路
2017年12月,Transformer论文在NeurIPS会议上正式发表。在场的听众中,有一群来自旧金山一个小型非营利组织的研究员。
这个组织叫OpenAI,成立于2015年,由Elon Musk和Sam Altman等人联合创立,号称要确保人工通用智能(AGI)造福全人类。在2017年的AI格局中,它还只是一个默默无闻的参与者。
OpenAI的研究员们听完了Transformer论文的演示后,做了一个决定:用Transformer来做语言模型。不是用它来翻译,而是用它来做最简单的事情——预测下一个词。
给模型一句话的前半部分,让它预测后面会是什么词。就这样,在互联网上的海量文本上训练。
2018年6月,他们发布了第一个成果:GPT(Generative Pre-trained Transformer,生成式预训练Transformer)。论文标题是《Improving Language Understanding by Generative Pre-Training》。
GPT只有1.17亿个参数。以今天的标准看,这是一个极小的模型。但它展示了一个惊人的规律:当你把Transformer在足够多的文本上做”预测下一个词”的预训练,然后在特定任务上微调时,它几乎在所有语言理解任务上都能取得顶尖性能。
更重要的是,它暗示了一种可能性:如果我们把模型做得更大、数据做得更多、训练做得更久,会发生什么?
这个问题的答案,将在接下来的几年中逐步揭晓——从GPT-2到GPT-3,从ChatGPT到GPT-4,从简单的文本生成到推理、编程、多模态理解,直到今天的AI Agent。
但那是下篇的故事了。
上篇结束。
下篇预告:《从GPT到Agent:智能的涌现与失控》——从一个”预测下一个词”的简单任务开始,机器是如何逐步逼近、甚至在某些维度上超越人类智能的?这场加速度的狂飙中,谁在驾驶,谁在刹车,终点又在哪里?
本文参考了以下资料:
•McCulloch, W.S. & Pitts, W. (1943). “A Logical Calculus of the Ideas Immanent in Nervous Activity”
•Shannon, C.E. (1948). “A Mathematical Theory of Communication”, Bell System Technical Journal
•Hebb, D.O. (1949). The Organization of Behavior
•Hubel, D.H. & Wiesel, T.N. (1959). “Receptive Fields of Single Neurones in the Cat’s Striate Cortex”
•Rosenblatt, F. (1958). “The Perceptron: A Probabilistic Model for Information Storage and Organization in the Brain”
•Minsky, M. & Papert, S. (1969). Perceptrons: An Introduction to Computational Geometry
•Fukushima, K. (1980). “Neocognitron: A Self-organizing Neural Network Model”
•Rumelhart, D.E., Hinton, G.E. & Williams, R.J. (1986). “Learning Representations by Back-Propagating Errors”, Nature
•LeCun, Y. et al. (1989). “Backpropagation Applied to Handwritten Zip Code Recognition”
•Hochreiter, S. & Schmidhuber, J. (1997). “Long Short-Term Memory”, Neural Computation
•Hinton, G.E. & Salakhutdinov, R.R. (2006). “Reducing the Dimensionality of Data with Neural Networks”, Science
•Krizhevsky, A., Sutskever, I. & Hinton, G.E. (2012). “ImageNet Classification with Deep Convolutional Neural Networks”
•Vaswani, A. et al. (2017). “Attention Is All You Need”, NeurIPS
本文由 @yan 原创发布于人人都是产品经理。未经作者许可,禁止转载
题图来自Unsplash,基于CC0协议
该文观点仅代表作者本人,人人都是产品经理平台仅提供信息存储空间服务
- 目前还没评论,等你发挥!

起点课堂会员权益




