量子位专访楼天城:AI是匹脱缰野马,Harness是这个时代最关键的能力PonyWorld世界模型2.0深度解析对话楼天城
微资讯
未来人该怎么和AI共存
Jay 李根 发自 凹非寺
量子位 | 公众号 QbitAI
Harness(驯马)会成为这个(AI)时代最关键的能力之一。
这是小马智行CTO楼天城,在与量子位的对话中,给出的最新判断。
在他看来,如今的AI越来越像一匹脱缰野马。它开始学会了「调用」:调用工具、调用skills……因此能通过这些脚手架,自我演进,和人类打配合。
主动性和能量大幅提升,未来甚至连人类,都可能成为被「调用」的一环。
楼教主表示,当「AI司机」也和Coding Agent一样学会了使用工具,人类工程师的角色,会逐渐从「教练」转变为「执行者」。
这种情况下——
人和AI的关系,必须重新思考了。
这也是小马智行发布PonyWorld世界模型2.0的根本原因。
自动驾驶,即将进入一个AI主导、AI评测、并「调用」人类协助的新时代。
这个趋势是确定的,毕竟,人类想要赶上模型的迭代速度,太难了。
连强悍如楼教主这样的工程师都坦言:
开发的主导权,会逐步交给AI。
是的,一个顶尖的人类程序员,此刻却在宣告:即便是天之骄子般的工程师,也必须将研发的主导权拱手相让。
听起来多少有些残酷。
但这就是教主楼天城和小马智行10年创业历程里,目前为止最直接的结论。开发时代的范式,正在发生方向性的质变。
关于这个问题,或许可以用楼天城在访谈中反复提及的一个词回答——
大势所迫。
被技术瓶颈所迫,被消费者的期望所迫,被自动驾驶的终局所迫,被小马智行十年来始终渴望实现的蓝图所迫。
而这个被逼出来的模型,叫作PonyWorld世界模型2.0。
这是一场自动驾驶开发范式革命中,必须被倒逼出来的一次投影。
而且随这种趋势打开的还有小马智行的2.0时代,以自动驾驶出发的PonyAI,现在已经到了开启更大空间探索的时刻,通往物理AGI的道路已经被打开。
以及,楼教主的观点是:我们已经在路上了。
人类驾驶数据的价值,正在逐步归零。
并非思维实验。这个曾经看似遥远的未来,如今已成为小马智行一切技术研发的出发点。
当AI司机的安全性全面超越人类,再让人类工程师手把手教AI开车,无异于让业余棋手去辅导AlphaGo。
虽然从行业发展角度来看是件可喜可贺的事,但回想2020年,难免不有些让人唏嘘。
那基本是「模仿学习」的时代。无论自动驾驶还是人工驾驶,核心都是为了收集海量数据,让系统去模仿人的行为。
整个行业都在用影子模式收集海量人类驾驶数据,试图大力出奇迹。
但奇迹没有来。
模仿学习的天花板,就是人类本身。
而L4级自动驾驶是无法靠人类兜底的,这个几乎零容错的终局要求,远比「像人一样开车」严苛得多。
这也是2020年PonyWorld世界模型1.0启动的契机。
他们想给机器一个超越人的空间。通过创造一个虚拟驾校,让机器在里面自己摸索怎么开车,做强化学习。
不过,随着能力的进一步跃升,另一个尴尬的问题随之浮现。
当AI驾驶能力已经远超人类时,人类给AI的指导,很可能是错的……
一旦AI超过了人,人其实已经失去了评判权。因为我们无法再判断谁更好、谁更差。
在这种情况下,只有AI自己,能穷尽人类所不能察觉的维度,精准定位到底哪里出了问题。
也就是说,让AI来识别并指导AI。
这是AI时代的「图灵测试」。
基于这个理念,小马对1.0进行了一次开发范式的全面重构,带来了PonyWorld世界模型2.0。
人类不再是这个闭环的中心,AI,正式成为总教练。
自我诊断,是这套系统进化的核心引擎。
目前行业里大热的VLA(视觉-语言-动作)路线,核心逻辑是在感知与动作之间硬塞进一个语言模型——让AI先把路况「翻译」成文字,再基于文字生成动作。
但语言,本质上是对复杂4D物理时空的一种极度降维的「扁平投影」。虽然它提升了信息的传播效率,却不可避免地丢弃了大量珍贵的物理世界上下文。
这种架构,从诞生的那一刻起,就注定了它的上限。
为此,小马智行选择跳过「语言」这个中间商,让传感器数据直接映射为驾驶动作。
这不仅大幅削减了算力消耗,更让物理数据的收集与世界模型精度的提升变得前所未有的高效。
但这并不意味着放弃了「可解释性」和「语义推理」。
小马在车端模型的训练中,引入了一个比语言更接近驾驶本质的中间层——Intention(意图)语义层。
真正的老司机在紧急避险时,脑海里绝不会先默念一段台词。
「前方有障碍物,我要向左打方向……」等把这些可能性都在脑海里推理一遍,黄花菜都凉了。
面对瞬息万变的路况,人类高手是直接产生「意图」。
这正是PonyWorld世界模型2.0想要复刻的本能。
模型在做出每一个驾驶动作的同时,其内部会同步生成结构化的意图表达。翻译成人类能懂的语言,就是:
我选择在路口前减速等待,是因为右前方那个行人正在走向斑马线,我预判他大概率会横穿。
请注意,这些意图信息不是事后用另一个模型「解释」出来的,也不是推理过程中额外插入的累赘,而是在训练阶段就与驾驶动作被联合学习的原生能力。
而当这个意图层被解锁时,将会带来一个此前鲜被讨论的杀手锏:
它可以被无限生成。
世界模型本身就是生成模型,我们可以基于意图去反向生成任何意图组合对应的虚拟场景,让AI在所有可能的意图排列组合中接受高强度的「特训」。
这带来了一个根本性的差异。
人类开车时,通常只能对其他交通参与者做「最大似然估计」——觉得最有可能发生什么,就按什么反应。
但小马的AI司机拥有比人类长得多的上下文记忆能力,这是AI的天赋。它不需要靠「直觉」这种玄乎的东西,而是可以同时Keep in mind所有可能的意图组合,再进行综合决策。
系统可以自动回溯每一次决策,精准定位偏差究竟出在哪一层。
这些数据在真实世界中是无法被收集的,毕竟,谁会告诉你他刚才打方向盘的时候到底在想些啥啊。
当AI补全了这块长期的数据空缺,模型的自我诊断能力,无疑将迎来质的飞跃。
这直接带来了第二个核心突破:定向进化。
以前想提升世界模型的精度,路子很野,叫「广撒网」。
全无人车队到处跑,数据全量回传,然后指望工程师凭经验去「沙里淘金」。
但车队规模一旦从百辆冲到千辆,这招就不灵了。绝大多数数据对提升精度没啥用,只会变成昂贵的存储垃圾,白白烧钱。
PonyWorld世界模型2.0彻底反转了这个逻辑。
当系统自我诊断发现模型在某个场景下「心里没底」——比如某几个路口每到傍晚逆光时,模型对特定障碍物的模拟置信度就开始跳水——它会自动生成一个定向采集任务,直接给测试团队派单:
请在未来一周内,于下午4:30-5:30之间,在指定路口重点采集逆光条件下非机动车与行人混行场景数据。
随后,研发人员、测试工程师、运营团队……整个组织开始围绕世界模型2.0的「精度需求」运转。AI说哪里差点意思,人类就去补哪块数据。
人类工程师的角色,从手握教鞭的「驾校教练」,变成了听命行事的「AI数据采集员」。
研发节奏不再由人类经验驱动,而是由AI根据自身进化需求,自动生成。
值得注意的是,这里有个前提:
即便是做「AI的数据采集员」,也极度考验人类对AI的驾驭能力。
人类并没有完全退出Loop(AI进化的闭环流程),只是角色变了。
未来,怎么驾驭AI这匹脱缰的野马,既让它按自己的意志行动,又能保留它自我演进的能力,将是人才最需要具备的特质。
而对小马来说,同样可以预见的未来是:
接入2.0的自我诊断和定向进化能力后,无疑会给小马智行已有的「飞轮」,再狠狠踩一脚油门。
而核心燃料,正是L4全无人车队在真实交通中运营产生的数据。
AI会遇到人类司机不容易遇到的场景。
通常而言,人类司机在意识到旁边是AI车时,反应模式会变。有人会更敢加塞,有人会更愿意配合,也有人会试探它的边界。
因此,世界模型不仅要模拟人和人之间的交互,还得模拟人和AI之间的交互,尤其当AI的开法并不完全像人时,这件事就更有必要了。
而这种数据,只有像小马这样跑全无人Robotaxi的公司才能采集到——
大规模L4无人车队商业运营,产生真实世界的高价值数据;世界模型据此提升精度;车端模型持续增强;更强的模型支撑更大规模部署;更大规模部署又产出更多高精度数据。
循环往复,自我加速。
如今,小马智行已经积累了千万公里级的多城市纯无人驾驶数据。
数据量级是对结果的一种印证,而这个过程中所积累的经历和Know-How,同样是一笔宝贵的财富。
当然,一切的一切,最终还是得回到技术。
而负责技术的小马智行CTO楼天城,给出了许多细节和实践认知。
量子位:以前你们一直用安全、舒适、效率这些指标,之前是人来定义。现在听起来,更像是AI在决定了。
楼天城:整体架构最早当然还是人搭的,安全这些指标也一直都在。
但后来,我们通过学习的方式,训练了一些模型去做评价。
关键在于:AI为什么做得不好,问题到底出在哪。这件事现在人已经不太能判断准了,AI来当这个医生更合适。
量子位:核心原因不是人有短板,是AI进化得太强了。
楼天城:或者说人现在也很难再有什么进步(笑)。
但AI可以依靠非常长的context(上下文),让自己的理解能力变得特别强。
以前是人来判断,现在是AI来判断。收集之后够不够、还要不要继续改、这次改得好不好……这些关键决策点,正在逐步被AI接管。
量子位:所以人真的成了「工具人」(笑)。
楼天城:或者说,我们把人的精力放到了其他同样重要的事情上。至于判断这件事,就交给更擅长判断的AI。
这样做最大的意义就是突破天花板。如果今天还继续靠人来做,很多时候可能已经没法推动系统继续正向进步了。
量子位:主导权交给AI,这里面会不会出现幻觉?
楼天城:幻觉这个词最早是从大语言模型那边来的。
过去两年已经有太多例子说明,Scaling Law这条路,也就是单纯加数据,并不能解决幻觉。到今天,幻觉比例依然不低。
真正需要的是别的东西。比如对系统加限制,让它自我迭代、自我演进。
要让它自己意识到哪里有问题,然后自己去改进。
量子位:怎么意识到?
楼天城:它知道结果不对。比如因为幻觉导致最后撞了,或者发生了急刹,它就会回溯前面哪几步出了问题,然后再去改。
量子位:在自动驾驶里,幻觉问题是不是相对更容易处理一些?毕竟交通规则还是比较完备的。
楼天城:它确实相对更容易被压低,但问题在于,在真实世界中,幻觉带来的代价非常高。
量子位:PonyWorld世界模型2.0是一个升维概念,整个AI在训练AI,AI在驱动一切。那怎么确保系统始终安全?
楼天城:有一整套非常精确的评价体系,来判断问题发生的概率到底是多少。
我们会告诉它什么是好的、什么是不好的,但不会直接告诉它具体该怎么评价。最终我们看到的是,指标在持续提升。
还有一点,就算让AI来判断,它判断得也比人更准。随着系统持续进化,人可能连某个问题到底是不是幻觉,都判断不过AI了。
到今天为止,所有基于概率的模型都还做不到彻底消除幻觉。但让AI来驱动改进,比让人来驱动,速度快得多,天花板也高得多。
量子位:世界模型2.0对系统训练的速度和效率有了质的提升,那在落地层面,是不是也意味着质的提升?
楼天城:(停顿2秒)这是多方面的。
首先,落地不再只是局限在固定区域,而是可以走向更多区域、更繁忙的路段,比如高峰期,还有那些我们原来并不熟悉的国家和市场。
这里可以用一个词,叫superset。在这些新地方遇到的很多场景,其实只是原有世界模型的一个子集。所以系统在新区域启动时,会更有底。
另外一个变化,是大家的预期在提高。早年大家会觉得自动驾驶偶尔犯傻也能接受,但现在大家要求已经高很多了。这也是长期商业化推进里很关键的因素。
量子位:每个地方的驾驶行为和容忍度都不一样。有些地方让行人,有些地方加塞很激烈,这会影响系统吗?
楼天城:这些其实都可以看作子集。
这些组合在世界模型里其实都已经出现过,只是在不同地方,它们的概率分布不一样。这个地方更保守一点,那个地方更激进一点,但两种场景本身都已经在世界模型里存在了。
量子位:能不能理解成,北京训练出来的司机和广州训练出来的司机,风格上还是会有差别?
楼天城:在L4这个层面,其实不需要特别明显的差异。
L4真正要解决的,是在一万小时驾驶里,那些因为风格不同或者极端行为导致的危险场景。而这些危险场景在很多地方,哪怕是海外,其实都没有本质上的巨大差异。
有些地方开车猛一点,有些地方保守一点,但真正到出事的时候,其实都是一样的。
这可能和L2不同。辅助驾驶更在意不同地区整体的驾驶习惯,但L4更关注极端场景,而这些极端场景的分布其实非常一致。
所以去新地方,并不需要太多额外操作。
量子位:世界模型2.0发挥作用之后,对车端传感器方案和算力会有什么影响?
楼天城:先说传感器,这里面核心是成本。
如果我们希望使用更便宜、更标准化的传感器,那它们在质量上一定会有一些不足。比如在特别复杂的雨天环境里,标准化传感器可能就会比高端传感器差一些。
这确实需要世界模型继续进步,在生成阶段把这些问题也纳入进去。不过这项技术我们已经做完了,现在已经可以比较好地使用标准化传感器。
再说算力。通常两三倍的差距不会带来本质变化,除非是100倍这种量级,才可能真的改变很多事情。但100倍本身也不是个简单数字。
大多数时候,两三倍这种差异,主要还是通过训练范式、开发范式和模型结构去消化。
量子位:10年前大家最常说的词是corner case,也就是极端场景。当时大家一直在讨论到底能不能穷尽它。现在世界模型是不是找到了一条能解决,或者说能穷尽极端场景的路径?
楼天城:更准确地说,是穷尽这些场景里的intention(意图)分布。
场景本身并没有那么多变种,但我们不能说自己已经穷尽了全部场景。真正无限变化的,其实是不同物体之间的意图组合。
同样的场景、同样的状态,因为不同参与者的意图不同,就会形成非常多的组合。世界模型真正能做的,是把这些意图组合穷尽掉。
(停顿……)
在现实世界做这件事,是不可能的。
意图数据本身就很难收集,你不可能在真实道路上要求所有人按照某种设定好的意图去行动。
但在虚拟环境中,我们可以强制设定意图。
量子位:你们博客里有一句话让我印象很深,在AI驾驶能力超过人类实际水平之后,普通人类数据对世界模型精度提升的价值会趋近于零。这是一个数据层面的洞察,还是认知层面的洞察?
楼天城:这个认知其实已经存在一段时间了。而且我甚至觉得,如果系统已经做得很好,那这个价值不只是趋近于零,甚至可能是负的。
量子位:啊?(惊讶脸)
楼天城:本质上其实是是AI发展阶段变了。AI会经历从不如人,到接近人,再到超过人,然后继续自我改进的过程。
当人已经明显比AI差的时候,人提供的很多数据反而会把一些不该有的坏习惯带进来。
AI刚超过人的时候,可能整体行为看起来还和人很像,只是它在那些和人不一样的地方做得更好。但恰恰是这些不一样的场景,人已经没法准确判断到底是好还是不好了。
有点像老师。早期当然很感谢老师教了很多东西,但真正到了做研究的阶段,老师其实已经帮不上太多了,更不需要再把早年的东西一遍遍重新灌给你。
接下来,需要AI自己去生成。
这就好像你没法教AlphaGo下围棋,就算让我教,我也教不了啊(教主无奈)。
量子位:有一种说法是,真正高级的AI司机,可能会在多车道变道时,直接从第一车道切到第四车道……
楼天城:(打断)这其实要看具体情况。
如果路上视野特别好,看得很清楚,没有遮挡,那它这么做也许完全合理,甚至可能就是最优解。
但换个场景,就不能这么做。有时候人类司机没有意识到潜在风险,因为整个过程需要时间,而且前方可能有遮挡,只是恰好没碰上问题。但AI可以意识到这些潜在因素。
而且人本来就是千人千面。AI还得先判断「到底该学谁」,对吧?
因为有些人会这样开,有些人不会。
量子位:所以现在让AI教AI怎么学,也能避免学到这些危险行为?
楼天城:AI一旦不再以开得和人一样为目标,而是以开得更好为目标,它自然就会意识到这些风险因素必须纳入考虑。
但AI教AI最根本的一点,还是它要继续告诉自己,哪里开得不够好,然后持续改进。当AI已经明显超过人之后,要再往上提升,就必须让AI来驱动很多事情。
量子位:你这个洞察,好像也回应了L2到底能不能升到L4这个问题。如果只是不断模仿和学习人的驾驶方式,是到不了L4的,对吗?
楼天城:我确实说过类似观点,但这个问题要分技术和产品两个维度来看。
从技术上说,不能简单把某条路径打成L2技术。今天很多公司也在做强化学习。我当时真正想表达的是,只靠收集人类驾驶数据,做不到L4。
这一点今天其实已经成了共识。几乎所有公司都在谈强化学习、谈世界模型。大家都发现,只靠大量车在路上跑、收集人类数据,这件事帮不了L4。
简单说,不是L2一定走不到L4,而是沿着L2那条纯模仿的技术路径,它本身帮不了你实现L4。完全没做过L2的公司也一样可以做L4。
从产品角度看,又是另一回事。随着L2越来越安全,用户会慢慢产生一种差不多可以了的感觉。这种trust会导致一个问题,就是在需要接管的时候,用户反而接不过来。
这也是为什么L2开得越好,反而在产品层面会引出新的风险。技术上的瓶颈和产品上的风险,其实是两件事。
量子位:有人说你给VLA判了死刑。
楼天城:如果不看中间过程,只说自动驾驶最终形态……
应该,没有L的空间(语速放缓)。
因为从效率上看,L并不是V和A之间最有效的中间层。今天我们已经能找到更好的layer(层)。
它可能对某些中间阶段是有用的,但我讨论的是终局。在终局里,VLA里的L不是最终的连接方式。
即便未来中间层还会保留一些语义推理能力,那也不太可能还是human language(人类语言)这种L,更可能是一些新token。
intention可能不是一种token,但本质上,这已经证明它是更好的中间层。以后也许还会有别的。
所以最终来看,L不会是V和A之间真正长期存在的桥梁。
量子位:那中间阶段呢?
楼天城:中间阶段它当然是不错的。我没说中间阶段没有机会,只是说最终形态不会是这样。
量子位:但确实已经有一些做VLA的系统,跑出了不错的效果。
楼天城:对。但很多时候,VLA本身也在变,尤其是L在变,它已经不再是传统意义上的human language了。
VLA一开始之所以成立,是因为人类语言数据最好收集,所以它是个很好的起点。但再往后看,从工程实践和产业发展的角度,L扮演的角色会越来越少。
量子位:你也提到,世界模型2.0让工程师的角色发生了变化。在信息AI领域,大家会讨论超级对齐。那在物理AI或者自动驾驶里,有没有对齐这个概念?
楼天城:此对齐非彼对齐。这里真正需要对齐的,是对什么叫开得好的标准,而不是和人的驾驶行为做对齐。
如果你说的是行为上的对齐,那我们早就不追求那个了,而且那也不是正确方向。但什么叫「好」,这件事还是需要人的参与。
当然,人能提供的关于好与不好的维度,其实是很有限的。AI很早就已经基于这些维度做了大量扩展,而且做得更好。但它不会违反人设定的这些基本维度。
这在技术上未必叫对齐,但它可以实现类似对齐的效果。它对齐的是评价标准,而不是驾驶行为。
所以它的驾驶行为本身,绝对不会再照着人类怎么开来学。
人会先给出最基本的原则,但再往上更细的东西,人其实也给不出来了。AI就在这些原则之上,把事情做得更好。
量子位:假设未来要给火星设计一套新的驾驶系统或者交通系统,是不是那时候就该由AI来设计?
楼天城:(教主漫长停顿5秒)
好问题。
短期内……不会发生。
很长一段时间里,人类驾驶和自动驾驶还会共存,所以系统还是必须建立在现有交通规则之上,不能违反任何规则。
当然,如果未来真的出现一种完全不同于今天的新交通体系,那空间就会被打开。但那可能要等到绝大多数车都已经是自动驾驶之后,才会慢慢开始。
如果真到了火星,而且是一个全自动驾驶环境,那就完全是另一套故事了。但这件事还非常远。
量子位:我自己平时也开辅助驾驶的车。现在很多车会亮蓝灯,表示处于智能驾驶状态。如果我要加塞,我会优先挑蓝灯的车去加。因为现在交通系统里,最复杂的bug,其实往往是人类驾驶员自己。
楼天城:人现在很多时候更愿意和AI配合,而不是和人配合。
我以前常用AlphaGo来举例。下棋的时候它是对抗关系,但到了配合场景里,你会发现人其实更喜欢和AI合作。
AI更懂人,而人也会越来越懂AI。
量子位:你们提到,研发人员正在变成世界模型的数据员。
楼天城:更准确地说,是一部分人会变成这样。另一部分人,比如做车载模型部署和优化的,还是在做别的同样重要、甚至更重要的事。
量子位:你们一直以天才团队著称。当AI开始承担一些高水平研发角色,会不会降低未来自动驾驶行业对天才的需求?
楼天城:这已经不只是自动驾驶的问题了。
核心在于,人必须学会用新的方式和AI配合。在AI擅长的地方,让AI主导;在AI不擅长的地方,人去想办法驾驭它。
这不是某个行业、某家公司单独面临的变化,而是整个AI发展到今天,人都必须做出的改变。真正懂得怎么驾驭AI的人,才会成为下一代真正有价值的人才。
这是一次非常大的技术革命。
量子位:但如果我们把视野放回自动驾驶,当AI开始能替代天才工程师,自动驾驶的入局门槛似乎正在降低,因为对人才密度的要求没那么高了。
不过,你们在构建世界模型2.0的过程中,又依赖了大量运营车辆、反馈数据、精度迭代和整个世界模型闭环……
这样看,入局的壁垒好像反而又更高了(困惑脸)?
楼天城:其实更准确的说法,是优势发生了转移。
当然还是需要很多顶尖人才,但他们做的事情会和以前不太一样。过去的技术优势,会逐步转化成更全面的优势。
量子位:假设你已经知道了今天这些关于世界模型的洞察,如果重新做一次自动驾驶,会有什么不同?
楼天城:世界上没有时光倒流这种机会(笑)。
但有些认知,确实要走到一定阶段之后才会慢慢形成。比如早年很多公司都觉得,只要不断收集人类数据、不断模仿,就能把事做成。到了今天,几乎所有人都已经认可强化学习的重要性。
但很多公司的车可能还没有发展到那个阶段,也就是还没强到让人彻底判断不了好坏,所以他们还会觉得现有研发方式能继续用下去。也许等再往后走,他们也会有类似认知。
如果真的能带着今天的记忆回到过去,可能确实能少走一些弯路。但现实是,一个团队也必须靠自己一步步意识到这些事情。
沿着原来的方法走,我们Pony自己也走了4年模仿学习。这些经历不是没用,恰恰是因为走过了,才真正理解为什么必须走向强化学习。我们也长期依靠人来主导开发,正因为做过,才真正理解为什么要把更多事情交给AI。
量子位:所以说你们这十年自动驾驶的探索过程……
楼天城:(提前预判)这个问题问得很好。
也许知道整个发展过程,才是一家公司真正的壁垒。
(停顿3秒)
一步步走到现在,经历过那些Know-How,经历过那些钻研,才知道下一步该怎么走。
整个过程本身,就是一笔非常独特的财富。
量子位:Scaling Law在你们的探索过程中起什么作用?
楼天城:在数据量还比较小的时候,增加数据当然有帮助。
但当数据量上来之后,尤其是在自动驾驶这种出错代价非常高的场景里,已经被多次证明,单靠加数据帮助很有限。
真正需要的,是训练范式和模型结构层面的改变。不是说Scaling Law没用,而是它在早期作用更大,到了后期,决定上限的已经是其他因素了。
量子位:你们在博文里提到,未来不会只局限在自动驾驶这个场景。核心原因是什么?
楼天城:我一直认为,自动驾驶是物理AI里最先锋的应用。
如果连先锋应用都做不好,那别的应用迟早也会遇到同样的问题。
而世界模型本身也有不同阶段的演化。到了下一阶段,很自然就要融入更多物理定律。这个能力建设,会让我们有机会去做更多物理AI应用,也能创造更多价值。
还有一个很关键的点,就是人和AI之间关系的变化。
最近几个月,大家都在盯着AI写代码,AI coding成了热点。它开始具备一定的自我演进能力,调用工具的能力也越来越强。
这时候,人和AI的关系就必须重新思考了。
我自己其实早就跳出了当年那种人教AI的图灵测试式想象。越来越多事情,已经可以由AI来主导了。比如世界模型2.0,本质上就是AI在主导研发。
那再往外想,整个公司的其他策略,比如商业化、宣传,是不是未来也可以由AI来主导?甚至今天我来和你聊天,说不定以后AI也能告诉我应该怎么表达。都是有可能的。
未来,我们和AI的关系大概率还会继续变化。很多事情会从AI辅助,逐步走向AI主导。
量子位:能不能理解成,你们在自动驾驶里实现了harness(控制),接下来在其他领域也有机会复制这件事?
楼天城:对,这套能力完全有机会影响到别的部分,甚至不一定局限在物理AI。
量子位:也就是说,一方面是核心技术发生了变化,另一方面是你们内部技术积累也到了某个阶段,所以才打开了新的象限。
楼天城:我们现在更多还在能力积累阶段,等到更合适的时候再去分享。
但这个空间肯定不会只局限在物理AI的某一个应用里。它至少有两个维度。一个是应用层面,不止一种物理AI应用;另一个是我们和AI的关系,也已经不再停留在辅助阶段。
量子位:空间打开之后,先做什么、后做什么,你们会怎么判断?
楼天城:一个很重要的心得是,能力积累和把事情真正做成,是分阶段的。
能力必须先积累到一定程度,事情才有可能真正做成。
自动驾驶就是这样。只有当车的安全性够好、成本够好、服务体验也够好,真正有意义的商业化才会开始。
其他领域有时候要求甚至比自动驾驶还高。因为出行本身已经是一个很成熟的领域了,如果进入一个还不成熟的商业场景,对能力的要求可能更高。
所以前期,我们还是会把主要精力放在能力建设上。然后等真正合适的机会出现时,再去出手,而且希望每一次出手都能达到很好的效果。未来肯定不会只做一种应用。
量子位:有没有一些像ODD那样规则特别清晰的领域,更适合能力复用?
楼天城:可能是反过来的。
随着基础模型的发展,单独提升细分领域能力,已经不是最重要的方向了。你看今天的基础模型,也不会专门拆出一个物理模型、一个化学模型、一个数学模型,它们基本都是融合在一起的。
很多细分场景的能力,反而是在更通用的场景中学出来的。
当然,你可以先在一两个新场景里验证价值,但训练这件事的关键,并不来自那个具体场景本身。
量子位:很多公司做创新,都是先看准场景再建能力。你刚才表达的逻辑还是先基于能力。那你们内部评价自己能力的标准是什么?有没有类似L0到L5这样的划分?
楼天城:我不太想自己再发明一个新的定义,但在整个AI领域,其实有一个很自然的阶段划分。
先是AI向人学习,这时候它比人弱。再往后,它会逐渐接近人。然后,它会超越人。再之后,是在超越人之后继续进步。
这几个阶段,在物理AI领域也一定会持续发生。
而且我认同这种分法,因为从弱于人,到接近人,再到超越人,最后走向超越人之后继续自我进化,这几个阶段所需要的技术方法是完全不一样的。每进入下一个阶段,前一阶段那套做法都必须发生根本变化,才可能真正迈进去。
今天我看到的很多物理AI,其实还处在第一个阶段,很多系统甚至还不如人,用的也还是我们更早年那种模仿学习思路。
至于后面怎么走,我们因为已经经历过,所以知道还可以继续往下走。但我觉得,谁都绕不过这些阶段。
量子位:你的很多学弟学妹(笑)……现在都投身了具身智能浪潮。大家都说这是10年前的自动驾驶。
作为10年前走过来的人,你觉得他们未来一定会遇到什么挑战?
楼天城:刚才说的这几个阶段,他们都会经历。
他们也会走到一个类似我们2020年的状态,也就是开始要做强化学习的那个阶段。
但如果你自己还没走到那里,我其实也没法说服你。因为很多事情,只有真正经历过,后面才能走得更好。
所以我觉得,最重要的是尽快走到那个阶段。等到了那一步,要有足够开放的心态,真正接受一套完全不同的做法,接受一种新的训练范式,然后让系统继续进步。
再往后,等有一天它明显比人强很多了,那下一步怎么让它继续提升,就又会进入今天我们正在经历的这种进化过程。
这些事情,都会发生。
量子位:这个过程其实没法跳过去。你明知道他们大概会在哪个节点需要改变,但他们还是得自己经历一遍。
楼天城:或者说,只有真的经历过,他才可能真正知道为什么要改,愿意去改,或者真正知道该怎么改。
量子位:你们现在打开了新的空间,可以做更多事了。公司已经上市了,这件事会带来什么变化吗?
楼天城:上市这件事,本质上还是为了做更有价值的事,这一点始终不会变。
自动驾驶的商业化本身也还在继续发展,而且现在应该正处在进展最快的时候。这仍然会是小马最主要的增长方向。
只不过与此同时,我们也可以把过去积累下来的经验,延展到更多方向,去创造更大的价值。
所以从本质上说,上市这件事并不会影响技术发展的方向。
还有一点,其实和上不上市都没关系。AI发展到今天,这半年可能已经是变化最快的半年了,半年之后可能还会更快。
这种变化,不只会影响我们的技术,也会影响人和AI之间的关系。
能不能跟上这种变化,是所有想survive的公司都必须面对的事。
量子位:这种变化,会不会也影响你们创新的方式?就是很少几个人试了一下,结果发现居然有效。现在还会有这种状态吗?
楼天城:从结果上看,确实可能还是你说的这种感觉。有些事情,未必需要投入特别多人力,就可以先试一下,然后很快验证它能不能有效。
但更重要的其实不是这个。
更关键的是,在这个过程中,人发挥作用的方式变了,贡献价值的方式也变了。
量子位:在人和AI关系发生巨大变化的这个时刻,那种真正会驯马的人才,反而变得更稀缺、更珍贵了。
楼天城:对。harness这个词翻得特别好,就是马鞍。
现在的AI,真的越来越像一匹能量极大、越来越野的脱缰野马。
你怎么让它沿着你的意志去行动,同时又能保持自控,还能继续自我演进、越做越好,我觉得这类能力就是今天这个时代最关键的能力之一。
量子位:人还是最重要的。只是现在这种人才越来越贵了。
楼天城:贵其实是相对的。
如果同样一个人,能够创造出比以前大得多的价值,那自然也应该获得更高的、合理的回报。这本身就是正常的发展过程。
量子位:现在行业里,顶级AI人才已经拿到像足球明星一样的待遇……(教主听到后困惑脸)
就是说会给他们发上亿年薪。你觉得这合理吗?
楼天城:这里面当然会有阶段性的波动。
但整体来看,未来一定会是更少的人,做出更多的贡献。这是一个很正常的发展趋势。
所以我们还是回到贡献本身来看。薪水可能会上下波动,但背后那条主线,其实是在不断抬升的。
量子位:我们现在谈世界模型2.0的时候,感觉像是在打开一条通向AGI的路。你认同这个说法吗?
楼天城:不是在打开。已经打开了,而且已经走了很久,现在已经到了一个势不可挡的状态。
量子位:那你定义的AGI,会是什么状态?
楼天城:emm……早年也尝试过给AI的发展定义一些阶段。
但后来我发现,那已经不是一个简单和人比较的阶段定义了,因为今天早就不是停留在那个层面了。
我觉得AI现在已经具备了一些自我演进、自我提升的能力。这已经远远不只是独立完成任务这么简单。
接下来,AI还会进一步拥有和物理世界更紧密接触的能力,甚至真正能够去管理一大群人,或者去管理更复杂的人与人之间的关系。
量子位:你的意思是,AI未来甚至可能去管理一个团队?
楼天城:公司里面当然还是有人,但越来越多关键决策会由AI来做,由AI来分配任务,人更多是给它提供信息。
量子位:这也是你认可的一种AGI实现方式。
楼天城:AGI这个词,很多时候是在描述一种能力,比如分析能力、推理能力这些。
当然你也可以反过来说,既然它最终能实现这种效果,那它一定已经具备了这些能力。
比如我们今天谈AI coding,很少有人再单独去强调推理能力,但实际上写代码这件事里,推理本身就是最核心的能力之一,它是天然包含在里面的。
从我的判断来看,AI在能力层面已经处在一个势不可挡的上升过程中。
量子位:之前大家谈AGI时,常常会把写代码能力当成一个关键指标。我一直在观察,有没有哪个新模型已经超过了你的水平。你现在觉得,有模型已经超过你了吗?
楼天城:我现在自己也已经在用模型帮助我写代码了,甚至还在用一些方法去教模型怎么自己写代码。
所以从这个意义上说,我早就不是一个单独存在的个体了。
不过,就我训练出来的agent来看,至少在很多题库上,现在还是排在前面,还是有一定领先性的。
但这里说的是我训练出来的agent,不再是我个人本身了。
我其实早就不在意,去和模型做那种个人层面的正面对比了。
如果一定要说,我能说的是,我和AI结合之后形成的系统,要比单独的AI更强。
但如果只是把我个人拎出来和它们单独比,我很早就不这么看这件事了。
量子位:所以以后真正的顶尖程序员比拼,拼的其实是人加AI的综合能力。
楼天城:以后比赛是不是会按这个方式办,我不确定。
但在真实世界里写代码这件事上,已经是这样了。
量子位:你刚才提到,我们已经在通往AGI的过程中。之前Ilya有一个比较有争议的观点,他说现在这套算法,以及单纯依赖scaling的方式,是没法实现AGI的。你认同吗?
楼天城:确实不是能靠那种方式做出来的。
量子位:那是不是意味着,我们还是需要一种新的,或者更好的架构?
楼天城:过去3到6个月,AI最大的变化其实已经把答案给出来了。
模型结构上当然一直会有自然演进和升级,但真正更关键的变化,是它开始会使用工具了,开始拥有skills,也开始有了harness和engineer的能力。
我觉得这才是它能力跃迁的根源。并不是靠简单增加数据做到的。
量子位:这里还有一个很直觉的问题。比如人类小孩,好像天然就知道站在高处不能掉下去。但机器人,或者自动驾驶汽车,似乎并不天然具备这种认知。
楼天城:它不需要自己亲自经历一次,可以直接通过这些skills获得这种能力。
人的很多能力是彼此分散的,要一项一项学。但AI可以直接把这些点总结出来、记住就行了。
量子位:你怎么看电车难题?是不是是时候可以谈论了。
楼天城:我觉得AI的作用,就是避免系统做这种选择。
更早去防范,提前规避,让系统根本不被逼到那个状态。
如果它真的做得足够好,本来就不该被逼到非选不可的状态。
量子位:我其实还有最后一个问题,AI正在变得这么强大,咱们都是有娃的人……面向AI未来,你会怎么去养育下一代?
楼天城:过去这些年,我们一直在做一件事,就是让AI超越人。驾驶上它已经超越了,未来别的领域可能也会继续超越。
问题在于,这件事真正的意义是什么?为什么人要去推动这件事?
一方面,AI做得更好,当然会给我们带来价值。比如从安全角度,它可以减少事故。
但更重要的另一方面是,只有亲身参与这个AI超越人的过程,你才真正有机会想明白,人未来该怎么和AI共存。如果你根本没有参与这个过程,你甚至可能不知道该怎么和它相处。
在这个过程中,我们也许才会真正找到,当AI已经足够强的时候,人还有哪些事情值得做、还能做出独特贡献。这其实也是我现在工作中一个很重要的重点。
我经常在想,到底还有什么事情,是人能做而AI做不了的?
但这件事和下一代教育本身,并不是直接对应关系。
我并不认同现在就急着去学某个特定内容,我反而觉得,一些基础能力更重要。
量子位:比如体育……(笑)
楼天城:体育肯定是重要的。数学、物理这些认知能力,以及交流能力,这些都很重要。
但如何和AI共存,确实会是一个持续发展的命题。这可能也是我们这一代人最重要的工作之一。
帮助AI超越人,不是为了单纯看它变得比人强,而是希望在这个过程中,真正想明白,人到底还能在哪些地方做出贡献。
只有真正经历完整个过程,才可能知道下一步应该怎么走。
也只有经历过帮助AI超越人的过程,才会知道,未来人该怎么和AI共存。
版权所有,未经授权不得以任何形式转载及使用,违者必究。