AI 理论和应用,70 年来是如何进化的

  • 来源:电脑报
  • 关键字:AI,理论,进化
  • 发布时间:2025-03-22 21:47

  小杰 路涛

  AI 近年来取得了举世瞩目的进展与突破,但是其当前的核心理论,特别是神经网络等,其实在这波浪潮掀起之前就已经基本形成。神经网络作为 AI 的基石,经历了多个发展阶段。人工智能的早期研究成果,如机器定理证明、跳棋程序等,则是出现在20 世纪50 年代。1950 年,艾伦·图灵提出了著名的“图灵测试”,这一测试目的是判断机器能否展现出与人无法区分的智能行为。

  1957 年,弗兰克·罗森布拉特发明了感知机,为之后 AI 的发展奠定了基本结构。感知机本质上是一种线性模型,可以对输入的训练集数据进行二分类,且能够在训练集中自动更新权值。感知机的提出引起了大量科学家对人工神经网络研究的兴趣,对神经网络的发展具有里程碑式的意义。感知机的计算以矩阵乘加运算为主,这种计算模式影响了后续AI 芯片和系统的基本算子类型,例如,英伟达(NVIDIA)的新款图形处理器(GraphicsProcessing Unit,GPU)就有为矩阵计算设计的专用张量计算核心(Tensor Core)。

  1969 年,马文·明斯基和西蒙·派珀特证明了单层感知机无法解决线性不可分问题(例如异或问题),发现了当时的神经网络的两个重大缺陷:①基本感知机无法处理异或回路问题;②当时计算机的计算能力不足以用来处理复杂神经网络。因此,在一段时间内,对于神经网络的研究几乎停滞。然而,这也为后来 AI 的两大驱动力的演进埋下了伏笔,即提升硬件算力以及模型通过更多的层和非线性计算(激活函数和最大池化等)增加非线性能力。

  1974 年,保罗·沃博斯在博士论文中提出了用误差反向传播来训练人工神经网络,使得训练多层神经网络成为可能,有效解决了异或回路问题。这个工作奠定了之后 AI 的训练方式——AI 训练系统中最为重要的执行步骤就是不断进行反向传播训练;同时,AI 的编程语言和框架为了支持反向传播训练,默认都提供自动微分(Automatic Differentiation)功能。

  1986 年,丽娜·德克尔在(人工智能促进会)上将深度学习(Deep Learning)一词引入机器学习社区。1989 年,反向传播训练进行更新的卷积神经网络(称为 LeNet)理论出现,启发了后续卷积神经网络的研究与发展。卷积神经网络是 AI 系统的重要负载,大多数 AI 系统都需要在卷积神经网络上验证性能,很多 AI 系统的基准测试中也会引入大量卷积神经网络。

  20 世纪 90 年代中期,统计学习登场,支持向量机(Support Vector Machine,SVM)开始成为主流,神经网络的发展再次进入低谷。2006 年,杰夫·辛顿、鲁斯兰·萨拉赫丁诺夫的论文《通过以下方式降低数据的维度神经网络》表明, 多层前馈神经网络可以一次有效地预训练一层,依次将每一层视为无监督受限的玻尔兹曼(Boltzmann)机,然后使用监督反向传播训练对其进行微调。这篇论文主要聚焦深度信念网络(Deep BeliefNet,DBN)的学习过程,为深度学习领域的发展做出了重要贡献。彼时,深度学习,由于计算能力的提升和大数据的可用性,再次推动了人工智能领域的快速发展。

  2011 年,微软研究院展示了他们在深度神经网络应用于会话语音转录领域的突破性工作——在单通道非特定人语音识别基准测试方面,相对错误率由 27.4% 降低到 18.5%,相对降幅达 32%;在其他 4 类不同任务中,也观察到 22%~28% 的相对错误率降低。

  此深度神经网络的训练得益于一个高效的分布式系统(其设计了适合当前作业的张量切片与放置以及通信协调策略以加速训练),该系统部署在多台配置有英伟达 Tesla GPGPU的服务器上,通过数百小时的训练才完成。由此看到在 AI 领域算法团队与系统团队协作已经由来已久,算法与系统的协同设计将以往不可能完成的计算任务变为了可能,上层应用负载需求驱动系统发展与演化,系统支撑上层应用负载取得新的突破。

  截至 2012 年,以英伟达为代表的芯片厂商已经连续发布了 Tesla、Fermi、Kepler 架构系列商用 GPU 和多款消费级 GPU,这些GPU 已经开始被用于加速 AI 算法与模型的研究,被业界公司用于人工智能产品,AI 系统与工具伴随着 AI 算法与模型的突破与需求“呼之欲出”。

  之后,以 ImageNet 等公开数据集为代表的各个应用领域(例如CV、NLP)的公开数据集或基准测试,驱动着以 CNN、RNN、Transformer、图神经网络(Graph NeuralNetwork,GNN)为代表的 AI 模型网络结构的发展和创新。

  2024 年和2025 年是人工智能和大模型快速发展的关键时期,这一阶段的技术突破、应用落地以及政策监管等方面的进展,对全球科技格局产生了深远影响。比如多模态大模型的兴起,OpenAI 推出了GPT-4o,支持文本、图像、音频的实时处理与生成,谷歌发布了Gemini 1.5 Pro 和Gemini 2.0 Flash,这些模型在科学推理、数学和编程任务中表现卓越。

  视频生成技术也得到了极大的飞跃:OpenAI 的Sora 模型和谷歌的Veo 2、Meta 的Apollo 模型等在视频生成领域取得显著进展。2024 年诺贝尔物理学奖和化学奖花落AI 领域科学家,彰显了AI 在科学研究中的关键地位。例如,AlphaFold 3 在蛋白质相互作用预测方面取得突破。

  DeepSeek 作为中国AI 领域的新兴力量,凭借其开源策略和强大的技术实力,正在深刻改变人工智能和大模型开源的格局。DeepSeek V3 和Llama 3.3 等开源模型性能逼近闭源产品,推动了行业的竞争与合作。开源策略正在改变全球AI大模型的竞争生态。其开源模式打破了传统AI 核心技术被少数巨头把控的局面,使得AI 技术的应用和发展更加多元化,全球“算力平权”革命无论是对世界还是我们,都是好事。

关注读览天下微信, 100万篇深度好文, 等你来看……