智能化科研(AI4R)是科研方法的重大变革。本文提出科技界不仅要关注科学智能(AI for Science,AI4S),更要重视技术智能(AI for Technology,AI4T);不仅要关注大语言模型(LLM),更要重视大科学模型(LSM)。同时提出,人工智能的突破主要不是靠大算力,而是计算模型的转变,中国应当争取在基础模型上做出颠覆性的创新;智能化科研适合做复杂问题的组合搜索,神经网络模型也许已接近能处理困难问题的复杂度阈值点;智能化科研的一种趋势是放弃绝对性,拥抱不确定性,一定时期内要适当容忍“黑盒模型”。近年来,科学智能(AI for science,AI4S)在科技界受到重视,也引起了人们对科学方法的讨论。笔者主张将“智能化科研”称为“第五科研范式”,本文讨论与智能化科研有关的一些认识问题。智能化科研是科研方法的重大变革在科学发展史上,人们把已经流行的某种类型的科研方法称为科研范式。随着人类生产力的进步,科研范式在不断演变。农业时代只采用观察和实验归纳方法,称为第一范式;工业时代开始流行以理论分析和逻辑演绎为特征的第二范式;信息时代出现了计算机模拟仿真,称为第三范式;互联网普及后兴起数据驱动的第四科研范式。现在人类处于信息时代的智能化阶段,正在向智能时代迈进,智能化科研范式顺应而生。人工智能经历了60多年的长期研究,近10年来取得重大突破。大数据、大模型和大算力的组合加速了智能化的进程。智能化科研正在引发一场科技革命,它带来的机遇和挑战影响中国科技发展的前途。“AI for science”本质上是“AI for scientists”,各个领域的科研智能化一定是以本领域的科学家为主来完成,各行业的科学家是这一场科技革命的主角。各领域的科学家要担当起这份重任,自身需要智能化转型。只有广大科学家积极主动地参与这场变革,智能化科研才能走上良性发展的轨道。不仅要关注科学智能,更要重视技术智能近年来出现了若干智能化科研的成功案例。蛋白质三维结构预测是智能化科研的里程碑式的科研成果。从2021年开始,利用深度学习技术,AlphaFold 2已预测了超过100万个物种的2.14亿个蛋白质三维结构,几乎涵盖了地球上所有已知的蛋白质。这一重大突破改变了生物领域科学家的观念,照亮了智能化科研的道路。2024年5月,Deep Mind团队在《Nature》期刊发表介绍新成果AlphaFold 3的封面文章,AlphaFold 3不仅能预测蛋白质结构,而且能以前所未有的精度预测所有生物分子(包括蛋白质、DNA及其他分子构成)的结构和相互作用,此成果对生物制药等领域可能会产生颠覆性的推进作用。图1是AlphaFold 3对蛋白质与DNA分子复合体的精确预测。图1 AlphaFold3对蛋白质与DNA双螺旋分子复合体的精确预测(图片来源:DeepMind官网)基于深度学习的分子动力学模拟是AI技术与超算结合的典型案例。2022年,中国科学院计算技术研究所的贾伟乐团队将具有第一性原理精度的模拟规模提升至170亿个原子,计算效率比2020年他的团队获得“戈登·贝尔奖”的成果提升1000倍以上。2022年5月,中国科学院计算技术研究所陈云霁团队成功地利用人工智能技术,设计出全球首款全自动生成的32位RISC-V CPU——“启蒙1号”。设计周期缩短至传统设计方法的1/1000,仅用5h就生成了400万逻辑门。2023年11月,DeepMind团队在《Science》上发表论文指出示,AI天气预报的精度和预报速度超过传统的数值天气预报水平,在单个Google Cloud TPU v4系统上1分钟内可生成10天的天气预报。同月,DeepMind研究团队在《Nature》上发文宣布,通过人工智能工具“材料探索图形网络(GNoME)”,发现了多达220万种理论上稳定但绝大部分在实验上尚未实现的晶体结构,其中有38万种稳定的晶体结构有望通过实验合成,具有实际应用前景。GNoME可被视为材料领域的“AlphaFold 2”,将人类已知的稳定材料的数量增长了近10倍。上述重大成果中,有些是探索自然界奥秘的基础科学研究,有些是如何设计人造物的技术研究,既有科学智能(AI4S),也有技术智能(AI for technology,AI4T)。这说明,人工智能技术不仅用于基础科学研究,也已渗透到技术研究甚至工程科学。笔者建议将可称为第五科研范式的“智能化科研”翻译成“AI for research”,简称AI4R,以反映科学、技术和工程整个科研领域的重大范式转变。AI4S和AI4T分别类似于信息编码和信息解码,前者是将大量观察数据编码成符号化的规律或知识,后者是将大量满足需求规范的样例解码成人造物的具体设计。无论是芯片全自动设计、新材料发现,还是AI天气预报,都是技术发明或预测。目前人工智能的抽象能力有限,真正的科学发现还很少见,AI4R取得的成绩主要是生物、材料、制药等领域的技术突破。我们在探讨科研方法创新时,一定要高度重视AI4T的应用。不仅要关注大语言模型,更要重视大科学模型不管是AI4S还是AI4T,都离不开大模型。 现在国内的学者言必称大模型,但国外并不流行large model或big model的说法,流行的是large language model(LLM),即大语言模型。 这是由OpenAI公司带领的方向,主要是 ChatGPT 的影响。 OpenAI团队坚信人类的知识大多包含在语言中,因此,LLM可以成为一种通用的人工智能模型。 LLM确实有较强的泛化能力,不仅可以用于文本生成,也可以生成图像、语音,甚至可以做数学推理。 但是,当前的LLM尽管从互联网上学习了海量样本数据,但本质还是封闭范围的AI,LLM学到的知识是训练过程中接触到的书本知识,与人类实践活动有关的大量隐性知识还没有学到。DeepMind团队(现合并到Google公司)采用的大模型中,也用LLM的方法学习必要知识,但更关注AI4R,主要是采用强化学习,机器本身也产生很多数据。上述智能化科研的成功案例中,有3个是DeepMind团队做出的。在推进智能化科研的过程中,我们可能要更加关注DeepMind团队的工作。为了区别于大语言模型,建议在智能化科研中提倡大科学模型(large science model,LSM)。大科学模型比LLM更复杂,需要数据驱动和模型驱动相互融合,有些研究要从第一性原理出发。LSM要考虑的内容很多,包括神经网络架构、机器学习和优化算法、训练数据集、科学伦理等。总体来讲,AI模型有两大类:一类是面向大众的模型(AI for the masses),以LLM为代表,适应面较广,对当前社会的影响大;另一类是面向科学研究的人工智能模型(AI for research),以DeepMind团队采用的LSM为代表,这类模型对人类的未来可能有较大影响。智能化科研强调跨学科合作,但是每一个垂直领域还是要构建专业大模型。构建垂直领域的大科学模型是一个复杂的动态过程,既需要懂得人工智能技术,又要对所涉及领域有深入的了解。对收集的数据进行严格的清洗和格式化,确保数据的质量和多样性,是专业性大科学模型成败的关键。大语言模型目前大多用于商业服务领域,科研领域成功的专业大模型还不多。原因之一是大语言模型不可避免存在“幻觉”,不能直接用于对正确性和精确性要求很高的科学研究。对于科研领域,模型具有识别自身能力不足的“自知之明”与提高模型准确性同等重要,科研大模型必须找到对付AI幻觉的办法。人工智能的突破主要不是靠大算力,而是计算模型的转变近年来,人工智能取得重大突破,得益于大数据、大模型和大算力,三者缺一不可。 有些文章过分宣传“大算力出奇迹”,这是一种片面的认识,单纯提高算力不是万能药。 实际上,野蛮地提高算力对扩大复杂问题的求解规模没有实际意义。 如果围棋扩大到20×20的棋盘(即增加一行一列),野蛮搜索的算力需要提高10 18 倍。 这2年训练大语言模型的算力增加了265倍,每3个月翻一番。 如果这种发展速度延续10年,算力就要增加1万亿倍,这不仅难以做到,也挑战了地球可供资源和能源的极限。有人说人工智能问题大多数是具有指数复杂性的NP困难问题,这只是一种模糊笼统的说法。人工智能问题的计算复杂性究竟有多高,目前还不清楚。因为一个人工智能问题,如机器翻译,其输入输出并没有给出严格的定义,“问题解决了”是什么意思也没有明确的说法。所谓NP困难问题(在多项式时间内可被图灵机验证结果的问题,往往具有指数级的计算复杂性)是对图灵计算模型而言的。问题的复杂性随计算模型的改变而改变,不同模型的计算效率有天壤之别。1943年麦卡洛克和皮茨提出了神经元计算模型,这个模型在可计算性上与图灵模型是等价的,但对自动机理论而言,比图灵模型更有价值。冯·诺依曼曾指出:“图灵机和神经网络模型分别代表了一种重要的研究方式:组合方法和整体方法。麦卡洛克和皮茨对底层的零件作了公理化定义,可以得到非常复杂的组合结构;图灵定义了自动机的功能,并没有涉及具体的零件。”过去的几十年里,神经元模型一直比不过图灵模型,在学术界受到排挤。但Hinton等学者坚持不懈,终于让神经元模型大翻身。自然语言理解、模式识别等困难问题在神经元模型上能有效解决,说明神经元计算模型对这类问题的求解效率远超图灵计算模型。近些年人工智能的成功本质上不是大算力出奇迹,而是改变计算模型的结果,从基于逻辑的确定性计算模型改成基于人脑启发的概率统计型模型。人工神经网络和机器学习都是不等同于图灵机的计算模型,因而表现出不同的计算效率。现有的计算复杂性理论还不能对近年来机器学习解决复杂问题的高效率做出科学的解释,需要加强关于人工智能和复杂性科学的交叉研究。在智能化科研中,数据、模型和算力的规模需要协调配合。神经元计算模型、反向传播和梯度下降算法都已提出几十年了,由于算力不足,这种计算模型的潜力没有显现。GPU的问世满足了这一需求,让神经元计算模型处理一些复杂问题的优势发挥出来,令人震惊。但神经网络模型并不是在所有问题的计算效率上都超过图灵机模型,在许多问题上图灵机模型仍有优势。有研究发现,使用神经网络来近似解决某些问题时,随着求解精度提高,网络与训练数据的规模都呈指数级增长,这说明神经元计算模型的扩展性仍有问题。我们提倡的LSM不局限于神经元模型。实际上,“启蒙1号”就没有采用神经元模型,而是独创的二进制推测图(DSM)模型。值得指出的是,早在1948年,图灵就写了一篇题为“Intelligent Machinery”(智能机器)的论文,提出了与图灵机不同的计算模型——“无组织机器”,模拟婴儿的大脑皮层,通过适当的干扰训练来实现组织化。这篇文章实际是早期的随机连接神经网络模型,几乎描述了目前人工智能联结主义的基本原理,包括遗传算法和强化学习等。由于他没有得到老板的认可,一直没有发表,直到2004年才被发现。如果学术界早看到这篇论文,今天的计算机世界可能是另一副模样。人工智能的研究还处在“伽利略时代”,或者说处在“牛顿时代的前夜”,面临诸多未知和挑战。我们要看到现有技术路径的局限性,不能只追求增量式改进。在人工智能领域,成为主流的机器学习模型的红火期一般不超过10年。当今主流的Transformer模型已经流行6年多,可能几年内就会被新的模型取代。如果依葫芦画瓢,重复开发许多没有新意的小模型,对推进人工智能作用不大。中国应当争取在基础模型上做出颠覆性的创新,为人工智能和智能化科研的发展做出历史性的贡献。智能化科研适合做复杂问题的组合搜索以大科学模型为代表的第五科研范式并没有取代以前的4种科研范式,实验归纳、理论分析和计算机模拟仍然是科研的主要范式,智能化科研只有和传统科研范式密切配合才能发挥作用。 但有一些复杂问题,如果不是要获得完全正确的解或最优解,采用深度学习方法似乎能大大提高求解效率,这类问题很适合智能化科研。 上面列出了几个成功案例,有几个就是这类组合搜索问题。许多科学问题的假设空间非常大,例如小分子候选药物的数量估计有1060种,可能成为稳定材料的总数多达10180种,CPU设计的组合空间相对于设计者考虑到的范围,几乎是无穷大。这就是人们常说的“组合爆炸”,数学家称之为“维度灾难”。过去的4种科研范式难以解决的组合爆炸问题正好是第五范式的用武之地。要把几乎无穷大的理论搜索空间压缩到超级计算机甚至PC机可以承受的足够小的搜索空间,需要启发性的知识做指导。通过海量数据的训练学习,计算机可以学习到一些过去人类不知道的启发信息,这可能是智能化科研的威力之一。神经网络不是按照确定的算法实现图灵计算,其主要功能是“猜测加验证”。猜测和计算是两个不同的概念,基于神经网络的机器更合适的名称是“猜测机”,而不是“计算机”,其解决复杂问题的能力很强,可能背后有更深层次的奥秘。冯·诺伊曼(图2)对复杂系统背后的奥秘,曾提出一种假说,叫作“复杂性阈值”。他去世后整理发表的著作《自复制自动机理论》指出:自动机理论的核心概念在于复杂性,超复杂的系统会涌现出新的原理。突破了复杂度阈值的系统,就会由于在数据层的扩散和变异作用而不断进化,可以做很困难的事情。现在的神经网络模型有数千亿甚至上万亿个参数,可能已接近能处理困难问题的复杂度阈值点。复杂度阈值不仅仅与模型的规模有关,为什么超过阈值就能做很复杂的事,现在还没有完全明白,需要做深入研究。冯·诺伊曼的《Theory of Self-Reproducing Automata》(《自复制自动机理论》)可能是研究复杂性理论最深刻的一本书,令人肃然起敬。图2 冯·诺依曼与他的遗著《Theory of Self-Reproducing Automata》放弃绝对性,有效应对不确定性早期AI研究的数学基础是数理逻辑,以符号处理为主,很多数学工具都用不上。 AI能够再创辉煌,主要的改进是采用了概率论和统计学的方法,处理的对象是数据而不是符号,大量的数学工具可以发挥作用。 复杂问题往往具有不确定性和动态变化的特点,不容易找到形式化的精确解答,只能通过对输入输出的比较分析去拟合未知的函数。 一般而言,求近似解既不是降低算法复杂性的必要条件,也不是充分条件,有些问题即使求近似解仍然具有指数复杂性。 但是,智能化科研的实践已表明: 对许多问题,只要找到足够多的具有代表性的样本(数据),就可以通过机器学习找到合适的模型(组合),使得它和真实的函数非常接近地拟合。 AI研究的新近发展体现一种趋势: 放弃绝对性,拥抱不确定性,即只求满足一定精度的解,这或许是这次AI“意外”取得成功的深层原因。冯·诺伊曼早就预言:“信息理论包括2大块:严格的信息论和概率的信息论。以概率统计为基础的信息理论大概对于现代计算机设计更加重要。”长期以来,计算机界解决问题的思路都是为特定应用编写计算机程序。经过几十年努力,现在有了另一种问题求解的思路,一个基于学习而不是编写计算机程序的替代方案。大模型相当于一种可能导致通用智能的应用程序,这种求解方式有时会失败,但在现实世界中可以对付许多复杂的问题。 统计意义的正确性与确定性计算程序的严格正确性是解决复杂问题的不同思路,放弃对百分之百正确性或最优解的追求,可能是智能化科研获得巨大威力的前提之一。科学研究可以被视为将“黑盒模型”逐步转化为“白盒模型”的过程,即从对某些现象或过程不了解逐步推进到充分理解其内部机制和原理。解决复杂度不高的问题,我们已掌握其基本原理,因此要强调可解释性,尽可能采用白盒模型。但对于非常复杂的问题,一开始不可能有白盒模型,一定时期要适当容忍黑盒模型,承认黑盒模型某种程度的合理性。这就是笔者在许多场合强调的,机器有人类暂时还不明白的“暗知识”,机器的“理解”不同于人的理解,要提倡人机智能融合。为了防止黑盒模型潜在的失控或可能出现的不良后果,要加强科技伦理监管,让智能化科研始终在安全可控的轨道上良性发展。作者简介:李国杰,计算机专家,中国工程院院士、发展中国家科学院(TWAS)院士,中国科学院计算技术研究所首席科学家。研究方向为计算机体系结构、并行算法、人工智能、计算机网络、信息技术发展战略等。原文发表于《科技导报》2024年第10期,欢迎订阅查看。内容为【科技导报】公众号原创,欢迎转载白名单回复后台「转载」《科技导报》创刊于1980年,中国科协学术会刊,主要刊登科学前沿和技术热点领域突破性的成果报道、权威性的科学评论、引领性的高端综述,发表促进经济社会发展、完善科技管理、优化科研环境、培育科学文化、促进科技创新和科技成果转化的决策咨询建议。常设栏目有院士卷首语、智库观点、科技评论、热点专题、综述、论文、学术聚焦、科学人文等。