World Science Hill创始人Mia王璟晗：独家专访中国科学院院士、北京科学智能研究院院长鄂维南教授

2023.11.0109:38

关注

前文介绍

北京时间2023年10月23日早上9:00,World Science Hill独家专访了中科院院士,北京大学国际机器学习研究中心主任,北京科学智能研究院院长、北京大数据研究院院长鄂维南院士。

(World Science Hill创始人Mia王璟晗独家专访鄂维南院士视频截图)

专访嘉宾:鄂维南

鄂维南,中国科学院院士,北京大学数学科学学院讲席教授、北京大学国际机器学习研究中心主任,北京科学智能研究院院长、北京大数据研究院院长。1982年在中国科学技术大学获得学士学位,1985年在中国科学院获得硕士学位,1989年在美国加州大学洛杉矶分校获得博士学位。

2022年7月,鄂维南受邀在2022国际数学家大会(ICM 2022)上发表一小时大会报告,随后又受邀在2022国际机器大会(ICML 2022)上作开场特邀报告。2020年,鄂维南因率先把科学计算、机器学习和高性能计算深度融合的工作而获得ACM Gordon-Bell奖。他于2023年获颁ICIAM麦克斯韦奖,2003年获国际工业与应用数学联合会颁发的Collatz奖,2019年获美国工业与应用数学学会和瑞士苏黎世工学院联合颁发的Peter Henrici 奖。鄂维南也是美国工业与应用数学学会Kleinman奖和von Karman奖获得者。

同时,鄂维南是首届美国数学会会士、首届美国工业与应用数学学会会士、英国物理学会会士、首届中国工业与应用数学学会会士、中国运筹学会会士。

1. 能否用一句话简要介绍一下您近期关注的领域?

我目前主要关注的领域是AI for Science,就是在科学研究中应用AI技术来解决新的问题,突破传统方法的极限。

2. AI for science 在近年来一直都是非常火的方向,作为首个提出该概念的人,在您看来,人工智能技术能够为哪些科学领域提供最大的助力?这些领域有没有一些共同的特征呢?

我想AI for science应该能给很多科学领域都带来很大的助力。至于其中的共同特征,从科学研究的角度来说,无非就是那么几个方法。

一是基本原理,应该说科学的基本原理大多都来自于物理学,那么物理中的基本原理从牛顿力学到量子力学,其实它的基本原理也是可以用很有限的几个规律来概括的,所有的科学领域都符合这些基本原理,同时也都是这些基本原理的扩展。

第二当然就是实验,实验也应该说是一种数据驱动的方法,也需要跟基本原理相结合。那么从实验的角度来说,不同的实验手段也没有那么多,它们从本质上来讲也是某种程度上建立在基本原理上设计出来的实验手段。

第三个就是文献,我们对文献的利用,也可以通过AI的办法得到很大的提升。

所以从以上三个角度来讲,科学研究的方法是通用的,那么我们如果在这些通用方法的层面上能够做的比较好的话,那当然对整体的科学研究也会带来比较大幅度的提升,AI则恰恰能够提供这样的通用解法和框架。

3. 目前在分子动力学、蛋白质、药物设计等生物医药的领域中,AI for Science 的落地已成燎原之势,如 AlphaFold 之类的算法在多个任务中都展现出了很好的效果,请问您认为从本质上来说,深度学习相比较于传统方法,主要解决了什么样的问题?

第一,它是解决了如何来描述和逼近多个变量的函数关系的问题,以前我们使用传统方法的时候,和现在相比差距是比较大的。

第二,它也能够帮助我们把大量的无标注数据充分利用起来,AlphaFold2就是一个非常好的例子,它很好地利用了那些没有标注的大量蛋白质数据。

第三,可能就是深度学习整个这一套工程的实践,通过建立工程的pipeline,以及这些工程的平台,像PyTorch、Jax等等,这套方法论对我们做科学研究的人来说,也是有很大帮助的。也包括像开源平台的建设等等,这些其实都有很多可以值得我们借鉴的地方。

4. 我们知道您还领导着一个分子动力学模拟的研究小组,并于2020年创造了历史,将分子动力学的极限提升到了1亿原子量级,且保持了极高精度和极高效率,请问除了深度学习模型以外,还有哪些重要的科研进展促成了这一成功?这一成果还会造福哪些应用场景呢?

我想可能一方面是深度学习,另一方面可能还是多尺度模拟方法(multiscale modeling),然后还有高性能计算等等,这些都是很关键的components 。当然最终要是谈成功的话,它可能也不能仅仅局限于分子动力学方法的层面,肯定还是要跟实验、数据等来做更加密切的结合。

5. 最近除了AI for Science,还有另外一个科研热点,那就是以ChatGPT为代表的大语言模型(LLM),请问大语言模型和AI for Science之间有何关联吗?大语言模型有没有可能会从工具层面上或者原理层面上大幅度改进或者辅助 AI for Science 的发展?

大语言模型也是AI的手段之一,当然我们也可以把这个手段应用到科学研究的问题当中去,所以从这一点来说,两者不仅没有什么矛盾,而且大语言模型还是一个可以借力的很重要的工具。就目前来讲,大语言模型在科学里的应用,和我们所看到的GPT4的应用,应当说是不一样的。

目前在科学领域里面,预训练模型已经有比较好的成果了,比方说像我们科学智能研究院里年轻人做的DPA就是分子动力学的一个预训练模型,还有UniRNA,这是RNA层面的一个预训练模型,这些都已经有关领域是非常好的成果。但是如果说像有些人宣传的那样,一个大语言模型就可以代替我们科学家来回答深刻的科学问题,这个差距还比较远,主要原因就是我们真正好的数据其实还不多。

另外,在科学领域,很多场景对推理的要求必须是准确的,大语言模型到目前为止还不能解决这些问题,但是它已经可以给我们提供很多帮助,除了我刚刚提到的预训练模型之外,还包括AI辅助查阅文献。

从长远的角度来说,大语言模型也会成为AI for Science的比较重要的一个发展方向。但是我想强调的就是,现在看到外面有很多这方面的宣传,严重夸大了大语言模型现有的能力,这对我们领域的发展其实是非常不利的,我们还是应该实事求是地去看待问题。

嘉宾:鄂维南

主持:Mia 王璟晗

作者:Mia 王璟晗

新浪新闻

World Science Hill创始人Mia王璟晗：独家专访中国科学院院士、北京科学智能研究院院长鄂维南教授

（来源：News快报）