ChatGPT的底层逻辑

人们也许会想起沃尔特·皮茨,一位在计算神经科学领域工作的逻辑学家。

他提出了神经活动和生成过程的具有里程碑意义的理论表述,这些表述影响了认知科学和心理学、哲学、神经科学、计算机科学、人工神经网络和人工智能等不同领域,以及所谓的生成科学。

某种意义上,正是ChatGPT的源头所在。

上世纪三十年代,皮茨在芝加哥大学扫地时,大约是15岁。这是他人生当中重要的转折点,也几乎决定了当今最火热的神经网络的起点。

皮茨出身于一个穷苦家庭,和《心灵捕手》的主角一样,打架之余靠在公共图书馆里借书自学,他喜欢逻辑和数学,还掌握了希腊语、拉丁语等多门语言。

住在贫民区的他,12岁时花三天时间读了罗素的《数学原理》,并写信给作者指出其中的错误。惜才如命的罗素立即邀请皮茨去剑桥大学当研究生,未果。

15岁初中毕业时,父亲强行要他退学上班养家,皮茨离家出走了。

无处可去的皮茨得知罗素要到芝加哥大学任教,只身前往,果真撞见了旷世大师。

罗素爱才之心不减,将他推荐给哲学家卡尔纳普教授。

听闻皮茨是少年天才,卡尔纳普把自己的《语言的逻辑句法》一书给皮茨看。皮茨很快看完,并将写满笔记的原书还给作者。

这位著名的分析哲学家深感震撼,为初中毕业生皮茨安排了一份在芝加哥大学打扫卫生的工作。

电影里那令观众动容的一幕在现实世界出现了。扫地的工作不仅可以令皮茨不可不用流浪街头,还让他能跟随大师们自由地探索真知。

命运在此刻埋下的最大注脚,是让这个可怜而又幸运的孩子,在两年之后遇见此生对他而言最重要的一个人。

1940年,17岁的皮茨与42岁的麦卡洛克教授相逢,从此两人一起改变了世界。

与人生混乱不堪的皮茨截然不同,麦卡洛克先后就读于哈佛、耶鲁和哥伦比亚大学,拿了一串眼花缭乱的学士、硕士和博士学位。

麦卡洛克也不像《心理捕手》的那位落寞的心理学教授,他出生优越,家庭幸福,事业蒸蒸日上,过着主流而正统的生活,学术上已经受到广泛赞誉。

可是,两个仿佛来自不同时空的人,在思想的最深处走到了一起。

1943年,麦卡洛克和皮茨发表了题为《A Logical Calculus of the Ideas Immanent in Nervous Activity》的论文,首次提出神经元的M-P模型。

该模型借鉴了已知的神经细胞生物过程原理,是第一个神经元数学模型,是人类历史上第一次对大脑工作原理描述的尝试。

M-P模型

M-P神经元是一个理想化的简单模型,基于生物神经元的基础特性进行建模。其工作原理如下:

神经元接收一组二进制输入,每个输入都与一个权重相对应;

当加权输入之和超过某个阈值时,神经元被激活并输出1,否则输出0。

这种机制很好地模拟了生物神经元的"全部或无"的响应模式。

M-P模型的影响力在于它是一个很好的开始,为后来复杂的神经网络模型铺平了道路。

然而,M-P模型也有很大的局限性,比如它无法学习和调整自己的权重,以及只能处理二进制输入和输出。

这个模型是人工神经网络和深度学习发展的基石。

现代的神经网络模型比McCulloch-Pitts模型复杂得多,但是它们的基本原理——根据输入计算输出,并且有可能调整自身以优化这个过程——仍然是相同的。

麦卡洛克和皮茨的论文不仅是人工智能历史上的一个重要里程碑,为理解大脑工作机制和发展人工智能打下了基础,还启发了人们:

生物大脑“有可能”是通过物理的、全机械化的逻辑运算来完成信息处理的,而无需太多弗洛伊德式的神秘解释。

麦卡洛克后来在一篇哲学文章里自豪地宣告:

“我们知道了我们是怎么知道的,这是科学史上的第一次。”

为了解决这个问题,图灵首先定义了“计算”这个概念,并创建了图灵机,这是一种理论上的计算设备。

然后,他通过构造了一个图灵机无法解决的问题(即停机问题)来证明判定问题实际上是无法解决的。

这意味着没有一个通用的算法能对任何可能的问题都给出答案。

一个意外收获是,图灵创立了一个新的研究领域——计算理论(或可计算性)。

图灵机给出了一个对“计算”或“算法”进行形式化的方式,这不仅在他的原始问题中有用,而且对整个计算机科学的发展产生了深远影响。

实际上,现代所有的电子计算机都是基于图灵机模型的,这使得图灵机成为了计算理论的核心。

没有证据表明麦卡洛克和皮茨看过图灵的论文。他们两个人的共同兴趣是,应用莱布尼茨机械大脑的设想来建立一个大脑思维模型。

《数学原理》中仅使用了与、或、非三种基本逻辑运算,就将一个个简单命题连接成越来越复杂的关系网络,进而描述清楚了整个数学体系。(尽管并不完备)

麦卡洛克则构想:人类的思考,是否也是靠神经元来执行这些最基础的逻辑运算而实现的?

皮茨在数学和逻辑上天赋,帮助麦卡洛克完成了这一伟大构想。

麦卡洛克和皮茨(左)

麦卡洛克和皮茨在1943年提出的神经元模型,构成了今天我们称之为人工神经网络的基础。

他们的模型描绘了一种简化的神经元,当其接受到的输入超过一定阈值时,就会被激活并向其它神经元发送信号。

这个模型的一个关键思想就是,即使每个单独的神经元都很简单,但是通过将它们联接在一起,就能形成一个能处理非常复杂问题的网络。

虽然单一的麦卡洛克-皮茨神经元只能完成简单的逻辑任务,但是,当将这些神经元组成一个复杂的网络时,神经网络就能进行复杂的计算,从而表现出图灵完备性

事实上,神经网络是实现人工智能(AI)的重要方法之一。

通过设计不同的网络结构,并使用大量的数据对网络进行训练,人工神经网络可以学习到完成各种任务的能力,包括图像识别、语音识别、自然语言处理等等。

AI的神经网络,是对人类大脑和基于社会化网络的人类群体智慧模仿游戏。人类大脑神经元结构和工作原理如下:图片来自《深度学习的数学》一书。以上原理,用计算模拟和解释,就是:神经元在信号之和超过阈值时点火,不超过阈值时不点火。20世纪五六十年代,‍‍‍‍奥利弗·塞弗里奇创造了名为“鬼域”的概念。这是一个图案识别设备,其中进行特征检测的“恶魔”通过互相竞争,来争取代表图像中对象的权利。“鬼域”是生动的关于深度学习的隐喻,如下图:图片来自《深度学习》一书。上图是对当前多层次深度学习网络的隐喻:1、从左到右,是从低到高的恶魔级别。2、如果每个级别的恶魔与前一个级别的输入相匹配,就会兴奋(点火)。‍3、高级别的恶魔负责从下一级的输入中提取更复杂的特征和抽象概念,从而做出决定。然后传递给自己的上级。4、最终,由大恶魔做出最终决定。《深度学习的数学》一书中,依照如上隐喻,用一个生动的例子,讲解了神经网络的工作原理。问题:建立一个神经网络,用来识别通过 4×3 像素的图像读取的手写数字 0 和 1。 第一步:输入层12个格子,相当于每个格子住一个人,分别编号为1-12。如下图。第二步:隐藏层这一层,负责特征提取。假设有如下三种主要特征,分为为模式A、B、C。如下图。不同的模式对应着相应的数字格子的组合。如下图。模式A对应的是数字4和7,B对应5和8,C对应6和9。第三步:输出层这一层,从隐藏层那里获得信息。如上图,最下面是AI要识别的图像。首先,输入层的2、5、8、11点火;然后,隐藏层5和8所对应的特征被提取,“模式B”点火;最后,输出层的1被对应的“模式B”点火。所以,“大恶魔”识别出图像为数字1。在上面的例子里,AI可以精确地识别出0和1,但它并不懂0和1,它的眼里只有像素。可这么说,似乎过于拟人化了。人类又如何懂0和1呢?人类不也是通过双眼输入,通过迄今仍是宇宙间最大谜团的大脑神经元网络(更加复杂、强大且节能的隐藏层)提取特征,然后通过大脑的某个部位再进行自我解释的吗?辛顿曾在采访中提及,认知科学领域两个学派关于“大脑处理视觉图像”的不同理念:一派认为,当大脑处理视觉图像时,你拥有的是一组正在移动的像素。如同上面的演示;另一学派偏向于老派的人工智能,认为是分层、结构性的描述,脑内处理的是符号结构。辛顿自己则认为以上两派都不对,“实际上大脑内部是多个神经活动的大向量。”而符号只是存在于外部世界。不管怎样,神经网络的模型有用,并且非常有用。不愿意和外行分享专业话题的辛顿,用如下这段话生动介绍了“神经网络”:

首先是相对简单的处理元素,也就是松散的神经元模型。然后神经元会连接起来,每一个连接都有其权值,这种权值通过学习可以改变。神经元要做的事就是将连接的活动量与权值相乘,然后累加,再决定是否发送结果。如果得到的数字足够大,就会发送一个结果。如果数字是负的,就不会发送任何信息。你要做的事就是将无数的活动与无数的权重联系起来,然后搞清如何改变权重,那样就行了。问题的关键就是如何改变权重。
ChatGPT的底层逻辑极其复杂,但如果要简化为3个最核心的元素,ChatGPT-4认为它们可能是: 1、深度学习:ChatGPT的核心是一个基于 Transformer 的深度学习模型。Transformer模型通过自注意力(Self-Attention)机制来捕获输入文本中的复杂模式。在训练过程中,模型通过反向传播和梯度下降等优化算法来学习这些模式,使得它能够生成自然、连贯、与输入相符的文本。 2、大数据:ChatGPT通过训练海量的文本数据来学习语言模型。数据集包含了各种语言模式和语境,使模型能够在各种情况下生成合适的文本。大数据在这里起到了决定性的作用。3、强大的计算能力:为了处理这些大量的数据和复杂的深度学习模型,ChatGPT需要强大的计算能力。这包括强大的硬件(如高性能的GPU),优秀的计算框架(如TensorFlow和PyTorch),以及高效的并行和分布式计算技术。以上三个元素构成了ChatGPT的基础,使得它能够学习和生成自然语言。但是,这只是表面上的逻辑。实际上,每一个环节背后都有深厚的理论基础,涵盖了机器学习、自然语言处理、计算机科学、数学等多个学科的知识。深度学习是一种强大的机器学习方法,其底层逻辑相当复杂。不过,如果尝试将深度学习核心原理简化为3个要素,ChatGPT-4认为可以这样描述:1、神经网络架构:深度学习的核心是深度神经网络,这是一种模拟人脑工作原理的计算模型。神经网络由多个相互连接的层组成,每一层都由大量的神经元(或称为节点)组成。每个神经元都会接收前一层神经元的输入,并进行一定的计算,然后将结果传递给下一层的神经元。2、权重优化和学习:神经网络的每个连接都有一个权重,代表这个连接的重要性。深度学习的目标就是通过训练数据来调整这些权重,使得网络的输出尽可能接近于真实的目标值。这个过程通常通过优化算法(如梯度下降)实现,算法会根据网络输出与目标值之间的差距(损失)来调整权重。3、非线性激活函数:深度学习的另一个关键元素是非线性激活函数,如ReLU(Rectified Linear Unit)或Sigmoid等。这些函数用于增加神经网络的表达能力,使其可以学习和表示非线性的复杂模式。这三个要素共同构成了深度学习的底层逻辑。需要注意的是,这只是一个粗略的概述,实际上深度学习涉及的理论和技术要远比这复杂得多。例如,还有正则化、卷积神经网络、循环神经网络、自注意力机制、批归一化、优化算法、损失函数设计等等多种方法和技术,都是深度学习不可或缺的一部分。以下是神经网络发展的完整历史(图中并不完整),其中数度起伏。

1、McCulloch-Pitts神经元模型(1943):Warren McCulloch 和 Walter Pitts 首次提出了神经元的McCulloch-Pitts(M-P)模型,借鉴了已知的神经细胞生物过程原理。2、感知器(1957):由Frank Rosenblatt提出的感知器模型基于生物神经元的工作原理,是早期神经网络的主要形式。3、Minsky和Papert(1969):Marvin Minsky和Seymour Papert指出了感知器的局限性,即它们无法解决非线性可分问题(例如异或问题)。这部分导致了第一次人工智能寒冬。4、多层感知器(1986):在Rumelhart,Hinton和Williams的研究下,多层感知器(MLP)成为了神经网络的主要形式。MLP引入了一个或多个隐藏层,并使用了反向传播算法来训练网络。5、卷积神经网络和LeNet-5(1989/1998):Yann LeCun等人提出的卷积神经网络(CNN)是一种专门处理网格状数据(如图像)的神经网络。LeCun和他的团队在1998年开发出了LeNet-5,这是第一个成功应用到实际问题(数字识别)的卷积神经网络。6、长短期记忆网络(1997):由Hochreiter和Schmidhuber提出的长短期记忆网络(LSTM)是一种专门处理序列数据的循环神经网络。LSTM通过引入“门”结构,可以学习长期依赖关系,避免了传统RNN在处理长序列时的梯度消失问题。7、深度学习和深度置信网络(DBN,2006):Hinton等人提出了深度置信网络(DBN)和深度自编码器(DAE),标志着深度学习时代的到来。深度学习利用多层神经网络,能够学习更复杂的模式和表示。8、ReLU激活函数(2010):Nair和Hinton提出了修正线性单元(ReLU)作为神经元的激活函数,这极大提高了深度神经网络的训练速度和性能。9、AlexNet(2012):Krizhevsky、Sutskever和Hinton的AlexNet模型大大超越了其它基于传统机器学习技术的模型,引发了深度学习在计算机视觉领域的革命。10、word2vec(2013):Mikolov等人的word2vec是一种利用神经网络为词生成密集向量表示的方法。11、GoogLeNet and VGGNet(2014):Szegedy等人的GoogLeNet和Simonyan和Zisserman的VGGNet进一步提高了卷积神经网络在图像分类上的性能,并推动了卷积神经网络的设计进一步向深度发展。12、ResNet(2015):He等人的ResNet通过引入跳跃连接,解决了深度神经网络的梯度消失问题,使得网络的深度能够达到之前无法想象的程度。13、自注意力和Transformer(2017):由Vaswani等人提出的Transformer模型引入了自注意力机制,这让神经网络可以在更大的范围内建立依赖关系,为处理序列数据提供了新的框架。显然,我是用ChatGPT-4完成了这一节的内容。人类的大脑可以自己思考自己,虽然谜团难解;神经网络也能回忆自己的历史,尽管它无法为那些为此进程添砖加瓦的人类而感动。Chris McCormick认为,神经网络是纯粹的数学。从技术上讲,“机器学习”模型在很大程度上基于统计数据。它们估计所有选项的概率,即使所有选项的正确概率都极低,它们仍然只会选择概率最高的路径。神经网络的灵感来源于生物学,特别是人脑的工作原理,但其设计和操作基础确实是数学,包括线性代数(用于数据和权重的表示和操作)、微积分(用于优化算法,如梯度下降)和概率论(用于理解和量化不确定性)。神经网络的每个部分都可以用数学表达式来描述,训练过程则是通过优化数学目标函数(损失函数)来学习模型参数的过程。黄仁勋说:“AI既是深度学习,也是一种解决难以指定的问题的算法。这也是一种开发软件的新方法。想象你有一个任意维度的通用函数逼近器。”在黄仁勋的比喻中,“通用函数逼近器”确实是对深度神经网络的一个精确且富有洞见的描述。这个比喻突出了深度神经网络的核心特性:它们可以学习并逼近任意复杂的函数映射,只要网络足够深,参数足够多。这种“函数逼近”的能力使得深度学习能够应对各种各样的任务,从图像分类和语音识别到自然语言理解和生成,甚至是更复杂的任务,如游戏和决策制定。只要我们有足够的数据来训练这些模型,神经网络就能学习到这些任务背后的复杂模式。--哪怕这些模式对人类而言只是一个黑盒子。尤其在生成式模型(如ChatGPT)中,这种“函数逼近”的能力使得模型能够生成富有创造性的输出,如编写文章、创作诗歌或音乐等。这些模型通过学习大量的数据,理解语言或音乐的规则,然后生成符合这些规则的新的创作。

ChatGPT到底在做什么?为什么它能够成功?

大神Wolfram对此解释道:令人惊奇的是,ChatGPT尝试写一篇文章时,基本上只是一次又一次地询问“在已有的文本基础上,下一个单词应该是什么?” ,然后每次都添加一个单词。(更准确地说是一个token)那么,是否每次都选取概率最大的那个单词呢?并非简单如此。Wolfram告诉了我们ChatGPT如何靠概率来“写”出一篇文章:1、每一步,ChatGPT都会生成一个带有概率的单词列表。2、但若总是选择最高“概率”的单词,通常会得到一篇非常“平淡”的文章。3、于是巫术出现了,有一个特定的所谓“温度”参数,它控制了较低排名的单词会被使用的频率。4、对于文章生成,我们发现“温度”为0.8效果最好。概率和随机性,再次显示出神奇的魔力。 在微软的报告里,研究者用GPT-4模拟了一段对话:苏格拉底:我的朋友,我对最近这些所谓自回归语言模型的兴起感到不安。亚里士多德:你是什么意思,苏格拉底?苏格拉底:我的意思是,这些模型被用来生成看起来是人类写的文本,但实际上是由机器产生的。亚里士多德:那有什么问题呢?苏格拉底:问题是,这些模型被用来欺骗人们,操纵他们,控制他们。亚里士多德:但这些模式肯定也有一些积极的应用?苏格拉底:可能是这样,但我仍然对滥用的可能性感到不安。毕竟,一个能够生成与人类所写的文字无法区分的模型可以被用来传播假新闻,冒充他人,并制造宣传。亚里士多德:但这不只是一个如何使用这些模型的问题,而不是模型本身的问题吗?苏格拉底:我不同意。我认为这些模型本身就有问题。它们是一种伪装的形式,一种创造幻觉的方式,是人类思想和互动的一部分。因此,它们可以被用来以难以察觉的方式进行欺骗和操纵。亚里士多德:但这不正是你反对修辞和演说的理由吗?苏格拉底:是的,我也坚持这个观点。我相信,任何旨在欺骗或操纵的艺术或交流形式都是内在的危险。亚里士多德:我明白了。谢谢你分享你的想法,苏格拉底。乔布斯曾经设想过如上的对话,他预测有一天可以用计算机捕捉亚里士多德的底层世界观,如此一来人们就可以和他亲自对话了。反对修辞和演说的苏格拉底认为:感觉是不可靠的,感性认识是不确定的,只有理性才能够认识事物本身。而在亚里士多德的方法里,他将修辞确定为哲学的三个关键要素之一。另外两个则是逻辑辩证法。亚里士多德认为,逻辑关注的是用推理达到科学确定性,而辩证法和修辞则关注概率。后者适用于人类事务。上面两段文字我摘自网络百科,虽无法确认其原文与出处(尤其是概率那部分),却令人叫好。然而,在随后的年代里,亚里士多德的逻辑和确定性知识体系更大程度地影响了人类。人们信奉因果论和决定论,在牛顿的推动下,世界仿佛是一个由无数个精密齿轮构成的机器,在上帝的首次推动下,持续有条不紊地运转着。而另外一条线索亦在孕育之中。休谟的怀疑论和经验主义彻底改变了人们的思想世界,他认为感性知觉是认识的唯一对象,人不可能超出知觉去解决知觉的来源问题。在休谟看来,客观因果并不存在。随后康德试图对理性主义和经验主义进行调和,他否认客观因果联系,但主张用先天的理智范畴对杂乱的经验进行整理。马赫则开创了经验批判主义,他强调直接讨论观测数据,科学定律只是被视为以最经济的方式对数据进行描述的手段而已。《科学推断》一书认为,他开启了现代方法论的主要进展。曾经深受马赫影响的爱因斯坦,无法接受这种对科学信仰的破坏性,以及对法则、公式、定律的轻视,后来与其分道扬镳。爱因斯坦用探索性的演绎法建构了逻辑严谨的原理,他相信宇宙有解,不相信鬼魅之力。某种意义上,爱因斯坦是最后的牛顿(除了用斯宾诺莎的“神”替代了上帝),是科学因果决定论的捍卫者。1967年,波普尔对如上交织而漫长的哲学历程做了一个了结,他提出了三元世界的观点,布尔金将其绘制如下:这似乎是柏拉图洞穴理论的现代版。看看,人是多么无知,又是多么分裂啊!基于这样的结构,波普尔提出:我们无法证实这个世界,无法证实规律和定理,只能去证伪

也许你还记得上一代的老实人工智能--深蓝。庞大的机器,手工制作无尽的代码,多名参与其中的职业棋手,以及暴力算法,虽然打败了卡斯帕罗夫,却如流星般闪过。

《麻省理工科技评论》将深蓝形容为恐龙,而这一代的神经网络(尤其是深度学习)则是生存且改变地球的小哺乳动物。

上世纪50年代,香农曾经乐观地预测AI将很快出现,事实并非如此。失败的主要原因是:

人工智能的创造者们试图用纯粹的逻辑来处理日常生活中的混乱,他们会耐心地为人工智能需要做的每一个决定都制定一条规则。但是,由于现实世界过于模糊和微妙,无法以刻板的方式进行管理。

我们无法像是依照牛顿的原理造车般,用发条思维和专家系统来打造智能系统。那一类AI不仅狭窄,而且脆弱。

ChatGPT是经验主义进化论的“胜利产物”。