阶跃星辰姜大昕、月之暗面杨植麟、生数科技朱军，云栖大会激辩“通往AGI的大模型发展之路”

【TechWeb】9月20日消息，在(zài)2024云栖大会上，极客公园创始(shǐ)人、总裁张鹏对话阶跃星辰创始(shǐ)人、首席执行官姜大昕(xīn)，月之暗面Kimi创始人(rén) 杨植麟，清华大学人工智能(néng)研究院副院长、生数科技首席科学家朱军，三人对AGI发展现状和(hé)未来展望(wàng)进(jìn)行了激烈讨论和(hé)前瞻展望。

2024年，AI 发展变慢了吗？过去18个月(yuè)，AGI的发展是加速还是减速？如何评价OpenAI 最新发布的 O1 模型？强化学习将改变什么？大模型时(shí)代(dài)的创业新(xīn)范式是什么？

姜大昕表示(shì)AI 技术发展加速， AI 发展正在经历关(guān)键的(de)技术范式迭代： OpenAI 的大模型 o1 探索出了通(tōng)过(guò)强(qiáng)化学习让 AI 具备(bèi)人类(lèi)慢思考（可主动反思、纠错的复(fù)杂思考）能力的方式，接下来提升强(qiáng)化学习模(mó)型的(de)泛化能力和加速推进多模态理解生成(chéng)一(yī)体化是 AI 技术进一步突破(pò)的关键。阶跃星辰积极探索新的技术范式，已经在万亿参数模型上实(shí)现了强化学习训(xùn)练的方法(fǎ)论。同时，持续打(dǎ)磨更高性能的底层大模型(xíng)，提升C端产品体验。据他透露，近期阶跃星辰自研的 Step-2 万亿参数 MoE 语言大模型已接入智能助手“跃问”，展现出更强大的(de)指令跟随、创作和推理能(néng)力。

谈到AI产品未来的可(kě)能形态，杨植麟表示，以后(hòu)的AI可能要思考或者(zhě)调用各种工具，它可能执行分钟级别、小时级别甚至天级别的任务，所(suǒ)以产(chǎn)品形态上可能(néng)会(huì)更(gèng)接(jiē)近一个人，它更接近“助理(lǐ)”的概念，帮(bāng)你完成异步的任务。这里面的产品形态设计可能也会发(fā)生很大的(de)变化(huà)，想象空(kōng)间蛮大。

谈到未来18个可能发生的事情，朱军(jūn)表示，预想未来18个月可能(néng)比(bǐ)较令人兴奋的一个进展，我希(xī)望看(kàn)到AGI的(de)L3已经基本上实现。至少在智能体，比(bǐ)如我们说的世界模型的创建生成、虚实融合，至少在一些(xiē)特定场(chǎng)景(jǐng)下的决策能力(lì)的(de)巨大的提升。其实它会利用我们今天讲到的(de)推(tuī)理、感知(zhī)等等。

以下为对话实(shí)录(lù)摘录：

主持(chí)人：从ChatGPT的(de)发展，引发了整(zhěng)个世界(jiè)对于AGI这(zhè)个事(shì)情的理解，发展到现在也18个月了(le)。各位的感受(shòu)是怎么样的，过去18个月，AGI的发展是加速还是减速？

姜大昕：我觉(jué)得过去18个月速度还(hái)是在加速的，速(sù)度(dù)还是非常快的。因(yīn)为当我(wǒ)们回顾过去18个月发生的大大小小(xiǎo)的AI事件(jiàn)以后，可以从两个维度去看，一个是数量的(de)角度，一个是质量的(de)角度。

从数(shù)量的(de)角度来(lái)看，还是每(měi)个(gè)月都会(huì)有新(xīn)的模型、新(xīn)的产品、新的应用涌现出来。比如单从(cóng)模型来看，OpenAI 2月份发了一个sora，我记得当时(shí)还是过年的时(shí)候，把大家轰炸(zhà)了一(yī)下。然后5月份出了一(yī)个GPT-4o，上周又出了o1。OpenAI的老(lǎo)对手Anthropic它有Claude3到Claude3.5的系列，再加(jiā)上(shàng)谷(gǔ)歌Gemini系列(liè)、Claude系(xì)列、LLaMA的系列，等等。

所(suǒ)以，回顾过去，我们的感觉还(hái)是GPT-4是(shì)一家独大，遥遥领先。到了今年就变成了一个好像(xiàng)是(shì)群雄并起，你追我赶的局(jú)面，所以感觉各家是在(zài)提速了。

从质量的角度来看，我觉得有三件事情可能给我的印象(xiàng)非(fēi)常的深刻(kè)。

第一件事情，GPT-4O的发布。因为我看它，认为它(tā)是在多(duō)模融合这样的一个领域上了一个新的台阶。在GPT4O之前(qián)，是有GPT4V，它(tā)是一个(gè)视觉的(de)理(lǐ)解模型，有Dalle、Sora，这是视觉的生成模型。还有Whisper这是(shì)声音模型。所以原本(běn)这(zhè)些孤(gū)立的模型到了4O这里都融合在(zài)一起了。

那为什么融合这件事情非常的重(zhòng)要？是因为我们的物理世界本(běn)身就是一个多(duō)模的世界(jiè)，所以多模融合一定是有(yǒu)助于更好(hǎo)的去为我们的物理世界建模，去模拟世界这样一件事(shì)情。

第二件事情，特斯拉发布的FSD V12。大家知道它是(shì)一(yī)个端到端的大模型，它把感(gǎn)知信号变(biàn)成一个控(kòng)制序列。智驾是一个非常有代表性的，它是一(yī)个从数字世界走向(xiàng)物理世界一个真实的应用场(chǎng)景。所以，我觉得FSDV12它的成功，意义(yì)不仅(jǐn)在于智驾本(běn)身(shēn)，这套方法论可(kě)以认为是为将来的智能设备如何和大模型相结合，更(gèng)好的去探索物理(lǐ)世界指明了一个方向。

第三件事情，上周(zhōu)的O1，我(wǒ)对它的理解，它第一次证明了语言模(mó)型其实也可以有人脑的慢思考，就(jiù)是系统2的能力。而我们觉得系统2的能力它是归纳世(shì)界所必备的一个前提条件，是一个基础的能(néng)力。所(suǒ)以，我们一(yī)直(zhí)认为，AGI的演进路线可以分为(wèi)模拟世界、探索世界、最后归纳世界(jiè)。而(ér)过去几个月的时间我们(men)看到GPT4O、FSD V12和O1分别在这三个阶段或者这三个(gè)方(fāng)向上都取得了非常大的突(tū)破，而且更重要的是为将来的发(fā)展也(yě)指明了一个方向。所以无论(lùn)是从数量还是(shì)质量上来说，都是可圈可点。

杨植麟：我觉得整体也(yě)是属于加速发展的阶段，核心可以从两个维(wéi)度来看（AI的发(fā)展），第一个维度是纵(zòng)向的维度，也(yě)就是说你的智(zhì)商(shāng)是一直在提升的，这个主要现在的反应方式还是你去看文本模型能做到多好。第二个是横向(xiàng)的发展。除了文本模型(xíng)之外，刚才姜总提到的，也会有各种不同的模态，这些模态会做一个横向的发展，更多的让你这个模型具备更多的(de)技能，能够去完成更多的任务(wù)，然后同时跟纵向的智商的发展相结合。

在(zài)这两个维度上(shàng)，我(wǒ)觉得都看到了非常大的进(jìn)展，比如说在纵向的维度上(shàng)，其实智商是一直在提升的(de)，比如说我们如果去看(kàn)竞赛数学能力(lì)，去年是完(wán)全不及格，到今年已经能做到90多分，像代码(mǎ)基(jī)本上也是一样，能够(gòu)击败很多专业的编(biān)程选手，包括(kuò)因此(cǐ)也产生了很多新(xīn)的应用(yòng)机会，比如说像现在比较(jiào)流行的类(lèi)似curser这样的，通过(guò)自(zì)然语言直接去写代码的这样的软件也越(yuè)来越普及，这是技术发展的结果。包括我们去看(kàn)很多具体(tǐ)的技术指标，现在的语言(yán)模型能支持(chí)的上下(xià)文的长度，我(wǒ)们如果去年这个时间点去(qù)看(kàn)的(de)话，大部分的模型都只能支(zhī)持4K-8K的，但是从今天去看你会发现4K-8K已经是非常低的数了，128K是一个标配(pèi)，已经有很多可以支持1M甚至10M的长文本的长(zhǎng)度。所(suǒ)以，它这个其实也是后面你的智商不断提升的一个很(hěn)重(zhòng)要的基础。

包(bāo)括(kuò)最(zuì)近的很多进展，它不(bù)光只是说Scaling，Scaling还是会持(chí)续。而且很多进展也来自于你的后(hòu)训练算法的优化(huà)，来自于你数(shù)据的优(yōu)化，这(zhè)些优化它(tā)的周期是会更短(duǎn)的。所以(yǐ)，这个周期更短导致你(nǐ)整体AI发展(zhǎn)节奏(zòu)也会进一步加快，包括(kuò)我们最近(jìn)在数学上看到的很多进展(zhǎn)，其实也是得益于这些(xiē)技术的发展。

横向上当然也产生了很多新(xīn)的突破，当然Sora可能是影响力最大的，在这里面完成(chéng)了这个视频(pín)生成。包括最近有(yǒu)特别多新的产品和技术出来，现在你已经可以通过一个论文直接(jiē)生成基本上你看不出来是真是假的双人的对话。类似(shì)这(zhè)样的不同模(mó)态之(zhī)间的转化、交互和生成，其实会变的越来越成熟(shú)。所以，我(wǒ)觉得整体是在加速的过程中。

朱军：AGI这里面大家最关注的还是大(dà)模型，刚才两位也讲了去年包括今年大(dà)模型也发生了很多(duō)重要的变化(huà)。整个的进展我(wǒ)是非常同意刚才讲到的，在加(jiā)快。

另外，我想补(bǔ)充(chōng)一点，大家在解新的问题，这个速度也在加快了，我们说它的Leaning corve在变的更陡。原来(lái)如果你看语言模型，可能从2018年最早去做的，到去年以及到今年，大家走了五六(liù阶跃星辰姜大昕、月之暗面杨植麟、生数科技朱军，云栖大会激辩“通往AGI的大模型发展之路”)年的路(lù)。但其实(shí)从去年(nián)开始，上半(bàn)年大家还(hái)是关注(zhù)语言模型，下半年在讨(tǎo)论多(duō)模态，从多模态理解再到多模态生成。我们再回过头看的话，比如说图像或者(zhě)视频，其实视频最明显，从今年的(de)2月份，当时很多人被震惊到(dào)了，因为(wèi)它很多没有公开，就说怎么去突破？有很(hěn)多的讨论(lùn)。但事实上我们现在看到这个(gè)行业里面，大概用了半年的时间，已经(jīng)做到了可(kě)以去用(yòng)，而且达到了一个很(hěn)好(hǎo)的一些效果，在时空一致(zhì)性上。所以大概(gài)走了半年的路。

所以这(zhè)里面加速的一个最核(hé)心的原因，现在大家对这种路(lù)线(xiàn)的认知和准备上，达(dá)到了比较好的程度。当然(rán)我们还有物理的条件(jiàn)，比如说像(xiàng)云(yún)的设施，计算的资源的准备(bèi)上，不(bù)像ChatGPT当时出(chū)来的时候，大家当时更多的是一种不知所措，我觉得很多人可(kě)能没准备好去接受这个，所以中间去花了很长时间去(qù)学习(xí)、去掌握这个。当我们掌握(wò)了之后再发现(xiàn)这个进展的话，再去(qù)做新(xīn)的问(wèn)题，其(qí)实它的速度是越来越快的。

当然，这个可能不同的能(néng)力它再辐射(shè)到实际的用户的角度(dù)来说，有一些快慢之(zhī)分，当然也分行(xíng)业。这个可能(néng)在广泛(fàn)的角(jiǎo)度来说，大家可能没感知到。但是从(cóng)技术来说，其实(shí)这个进展(zhǎn)我感觉(jué)是(shì)曲线越来越陡，而且可能对后边(biān)我们要(yào)预测未来(lái)的话，包括向更高阶的AGI发(fā)展，我是比较乐观的(de)，可能会看到比之(zhī)前更快的速度去实现了。

主持(chí)人：最近OpenAI刚刚出的O1的新的(de)模型，也是(shì)在专业人群里形成了非(fēi)常多的影响，现在还在很(hěn)丰富的讨论(lùn)。怎么评价O1进展的意义？

姜大昕：确实我看到一些非共识，有些人觉得意义很大，有些人觉得也不过如此。我觉得大家如果去试用(yòng)O1的话，可(kě)能第一印(yìn)象(xiàng)是(shì)它(tā)的推理(lǐ)能力确实非常惊艳(yàn)，我(wǒ)们自己试了很多Query，觉得推(tuī)理(lǐ)能力确实上了一个(gè)很大的台阶。

然后我们去思考它背后的意义究竟是什么(me)，我(wǒ)能想(xiǎng)到的(de)有两点：1.它第(dì)一次证明了Large language model，就是语言模型，它可以有人脑的慢思(sī)考的能力。它(tā)和以前GPT的范(fàn)式(shì)，或(huò)者(zhě)GPT的训练，它叫，Predict next Token，它只(zhǐ)要(yào)这样训练了，就注(zhù)定了它只有system 1的能(néng)力(lì)。而(ér)O1是用了一个强化学(xué)习的训练框架，所(suǒ)以(yǐ)带来(lái)了系(xì)统2的能力。

系统1的体(tǐ)现，它是一个(gè)直线性思维，虽然我们看到GPT4有时候可以把一个复(fù)杂的问题拆解成很多步，然后分步去解决，但它还是(shì)直线性的。系统1和系统2最大的区(qū)别在于，系统2能够去探索不(bù)同的路(lù)径(jìng)，它能够自(zì)我去反思、自我去纠错(cuò)，然后不断的试(shì)错，直到找(zhǎo)到一个正确的途径，这是(shì)系统2的特点。这次O1，它是把以前的模仿学习和强化学习结合(hé)起(qǐ)来了，使得一个模型(xíng)同时有了人脑系统1和系统2的(de)能(néng)力。所以我觉得从这个角度来看，它的意义是非常大(dà)的。

第二，它带来了一(yī)个Scaling Law的(de)新方向，我理解O1试图回答(dá)的一个问题，就是说RL（强化学习）究竟怎么去泛化。因为强化学习它不是第一个，DeepMind一直走的是强化学习的路线，从AlphaGo到AlphaFold到AlphaGeometry，其实(shí)它在强化学习上是(shì)非(fēi)常厉害(hài)的。但(dàn)以前(qián)强化学习的场(chǎng)景都是会为特定(dìng)场景(jǐng)去设计(jì)，AlphaGo只能(néng)下围棋(qí)，AlphaFold只能去预测(cè)蛋(dàn)白质的结构。所(suǒ)以这次O1的出(chū)现，它是在RL强化学习通用性和(hé)泛化性(xìng)上了一个大的台阶，而(ér)且它scale到了(le)一个很大的规模，所以我把它看成scaling带来新的技术(shù)范(fàn)式，我们不妨称之为RL Scaling。而且阶跃星辰姜大昕、月之暗面杨植麟、生数科技朱军，云栖大会激辩“通往AGI的大模型发展之路”(qiě)我们看到有意思的一点，O1并没有到很成熟的(de)阶段，它还(hái)是一个开端，但是这个恰恰让人觉得非常的兴奋，这就等于OpenAI跟(gēn)我们说，我(wǒ)找到了一条上(shàng)限很高的道路，而(ér)且你仔细去(qù)思考它背(bèi)后(hòu)的方法，你会相信这条路实际上是能走得下去。所以O1从能力上来讲，我觉(jué)得它展示了 Language model可以有系统2的能力，从技术上来说它带来新的(de)scaling范式，所以它的意义还是(shì)非常大的。

朱军：我的看法，它是代表着一个显著的质变(biàn)。我们也对AGI大概做了一些分级，学术界，包括产业界大家有 L1-L5的分级。其实L1的话相(xiāng)当于聊天机器人，就(jiù)是像(xiàng)ChatGPT等，之前大家做了很多对话的。L2叫(jiào)推理者，实际上(shàng)可以做复杂问(wèn)题深(shēn)度思考的推理。L3叫智(zhì)能体，回应吴总讲的“数字世界”走向(xiàng)“物理世界”，我要去改变的，我要去(qù)交互的。L4是创(chuàng)新者，它要去发现、创造一些新的东西，或者发(fā)现一些新(xīn)的知识。L5是组织者，它可以(yǐ)去协同，或者某(mǒu)种组织方式(shì)更高效来运转，这是大家对于AGI L1-L5的分级，当然每一级也有narrow和general的区分，在某些Task上展示出来。比如O1在L2的narrow场景下，在一些特定任务下已经实现了人(rén)类达到很(hěn)高阶的(de)智能水平。我觉得从分级角度来看，它确实代表着(zhe)整个(gè)行业(yè)巨大的进步(bù)。

刚才技术上姜总也讲(jiǎng)了，它将过(guò)去强化学习或者其他一些技(jì)术，其实在研究里已经做了很多东(dōng)西，但实际上它在大规模基座模型上(shàng)能(néng)够做出来的效果，这还是从工程上，或(huò)者从实现上来说对行业很大的触动。当然它也会错发或者激发出来很多未来的(de)探索，或者实际的研发，可能会(huì)走向从narrow到general的跃迁。刚才讲到速(sù)度，我相信它会很快(kuài)，因为(wèi)大家已经有很多准备了，我也期待这个领域里更多将L2做得更(gèng)好，甚(shèn)至更高阶的能实现。

杨植麟：我觉得(dé)它的意义确实是很大，主要意义在于它(tā)提(tí)升了AI的上限(xiàn)。AI的上限(xiàn)是说，你(nǐ)现在去提升(shēng)5%、10%的生产力，还是(shì)说10倍的GDP，我觉得这里最重(zhòng)要的问题就是(shì)你能不能通过强化学习进一步scaling，这是完全提(tí)升了 AI上限的(de)东西。我们(men)如果看AI历史上(shàng)七八(bā)十年的发展(zhǎn)，唯一有效的就(jiù)是scaling，唯一(yī)有效的就是加(jiā)更多的算力。但(dàn)在O1提出之(zhī)前，可能也有(yǒu)很多人在研究强化(huà)学习，但都没有一个非常确(què)切的答案，强化(huà)学(xué)习如果和大语言模型，或(huò)者和training processin这些东西整合(hé)在一起，它能否持续提升。比如GPT4这(zhè)一代模型的提升，更多是确定性的提升(shēng)，我(wǒ)在一样范式下把规模变得更大，它(tā)肯定是确定性的(de)提升。但是我觉得O1的提升并不是一个完全确定性的(de)，这样的提升。

所以在之前大家(jiā)可能会(huì)担心现在互联网上(shàng)大部分优质数(shù)据都已经被使用完了，然后你(nǐ)可能(néng)继续使用这(zhè)个数(shù)据也没有(yǒu)更(gèng)多数据可以挖掘，所以你原来的范(fàn)式可能会遇(yù)到问题。但AI有效了，你又需要进一步scaling，那你这个scaling从哪里来，我觉得很(hěn)大程度(dù)上(shàng)解决了这(zhè)个问题，或者说至少证明了它初步(bù)可行。初步可行的情况下，可能我们会有越来越多人投入去做这个事(shì)情，最终你要做到10倍GDP的最终效果，它完(wán)全有可能，我觉得是一个很重要的开端(duān)。

我觉得对(duì)很多产业格局上，或者对于(yú)创业公司(sī)新机会来说也会发生一些变化。比如我(wǒ)觉得这里很(hěn)关键的一个点，你的(de)训练和推理算力占比是会发生很大的变化，这个变化(huà)我不是说训练(liàn)的算力会下(xià)降，训练的算力还会(huì)持(chí)续提升。与此同(tóng)时，推理的算力提升会更快(kuài)，那这个比例(lì)的变化本质上(shàng)会产生很多新的机会，可能(néng)这里很多新的创业公司的机会。一方面，如果你达到一(yī)定的(de)算力门槛，它可以在这里做很多算法的基(jī)础创新(xīn)，那你可(kě)以在基础的模型(xíng)上甚至取得突破，所以我觉得这个很重要。

对于算力相对小一点的公司，它也可以通过后训练的方式，在一些领域上做(zuò)到(dào)一些效果，这里也会(huì)产生更多的产品和技术机会，所以我觉得(dé)整体也是打(dǎ)开了创业相关的想象空间。

主持人：这一波AI新(xīn)的(de)变(biàn)化，接下(xià)来会对AI相(xiāng)关的产品带来什么样(yàng)的连锁反应，这个变化(huà)如何发生？

杨植麟：这是很好的问题，我们现在还是处于(yú)产(chǎn)业发展的早(zǎo)期(qī)。产业发展(zhǎn)的早期有(yǒu)一个特点，还是技术驱动产品会更多，所以很多(duō)时候你的产品会去看当前的技术是怎么发展(zhǎn)，然后把它最大(dà)化的价值提(tí)取出来(lái)，所以这个(gè)问题首先非常好，可能我们根据这个新的(de)技术进展，再返过来(lái)推一下(xià)现(xiàn)在产品应(yīng)该做什么变化。

现在的技术发(fā)展有几个点(diǎn)：

一(yī)个，我觉得这里面会有很多探索新的PMF（product market fit）的机会。我觉得PMF指的是(shì)两个东西的平衡：一方面是由于你(nǐ)需要做这种系(xì)统2的思考，导致你的延时增加。对用户来说，延时增加是一个(gè)负向的体验，因(yīn)为所有用户都希望(wàng)我尽(jǐn)快能拿到结果；第二个点，它确实能提供更好(hǎo)的输(shū)出，能拿到(dào)更好的结果，甚至能完成一(yī)些跟(gēn)更复杂的任务。等于说新的PMF产生的过程(chéng)或者(zhě)探索的过程，其实是要在在延时增长的用户体验下降和最(zuì)后(hòu)结果产生质量更高的用(yòng)户价(jià)值的上升之间找到一个平衡点(diǎn)。所以你要让这个(gè)增(zēng)量的价值是大于体验的损失(shī)，我觉得这(zhè)个(gè)很(hěn)重要。所以在这里面更高价值的场景(jǐng)，特(tè)别是生产(chǎn)力的场景，我觉得(dé)会率先有一些东西出来。因为(wèi)如果你是一个娱乐场景，大概(gài)率你可能(néng)很难忍受这种(zhǒng)延时上的增加。所以(yǐ)，我觉得这是比(bǐ)较重要的一点

产品形(xíng)态上(shàng)，我觉得也会(huì)发生一些变化。因为你引入这种思考的(de)范式，所以现在同步及时的类似聊天(tiān)的产品形态一定会发生变化。因为以后的AI，可能它不光是现在(zài)思考个20秒、40秒，它已经可(kě)能要思考或者调(diào)用(yòng)各种工具，它(tā)可能执(zhí)行分钟级别、小时级别甚至天级别的任务，所以(yǐ)你的产品形态上可能(néng)会更接近一个人，它更接近“助理”的概念，帮(bāng)你(nǐ)完成异步(bù)的任务。这里面的产(chǎn)品形态设计，我觉得可能也(yě)会发生很(hěn)大的变化。所以这里面，我觉得新的想象(xiàng)空(kōng)间蛮大的(de)。

朱(zhū)军：我觉(jué)得大模型或者大规模预训练的技术代(dài)表(biǎo)着整个范式的变化，前面也聊到很(hěn)多，不光是语言，到多(duō)模态，到具身、空(kōng)间智(zhì)能，中间还(hái)是想(xiǎng)我怎么去让智能体(tǐ)能够(gòu)有交互，能够在这个过(guò)程中来学习。从智能(néng)的角度来(lái)看，包括从AGI发展上，它(tā)是一个必然，因为决(jué)策、交互实际上是我们说的智能(néng)里面非常核心的能力的体(tǐ)现。我们每时每(měi)刻其实(shí)都在做决策(cè)，我(wǒ)们(men)面(miàn)对(duì)的(de)是一个未知的开放环境，所以(yǐ)对于智能来(lái)说，它的发展路径(jìng)上，在整个规划里(lǐ)面大家也是朝着这个方向(xiàng)走。

现在所有这些进展，包括刚(gāng)刚讨论很多的O1，包括做视频生成，或(huò)者3D，这些东西大家最后要指向的有两个方向：

一个是给消费者看到的这些数字(zì)内容，就是说看上去(qù)很好看、很自然，能够讲故事，能够(gòu)让大家参与讲故事、能够(gòu)交互。这(zhè)肯定是一个很重要的方(fāng)向，在数字内(nèi)容上。

另外一个方向，指向实体、指向(xiàng)物理世界。

现在可能最好的一(yī)个(gè)结合点就是和机(jī)器人来结合在(zài)一(yī)起。其(qí)实现在(zài)已经有好多(duō)例子在展示出来，我(wǒ)们也看到很好(hǎo)的一些进展(zhǎn)，比如用了预(yù)训练的范式，如何让机(jī)器人的能力具有通用性；比如我们自(zì)己实验室做多的例子，像四足机器人(rén)，过去大家在不同(tóng)场(chǎng)地上，你要让它跑起来都需要(yào)用很多的人工调参。但现在你在一个仿真环(huán)境里面，或者(zhě)用一些AI的方(fāng)式来生成一(yī)些合成(chéng)数据，让它(tā)在里面大规模地训练，训练(liàn)出(chū)来的策略可以(yǐ)灌到(dào)机器人上，它相(xiāng)当于换(huàn)了一副大脑，可(kě)以让它的四肢更好地协同起来(lái)，同样一(yī)套策略可以做各种场地的(de)适应。其实这还是一个初步的例(lì)子，现在大家也(yě)在关注更复杂的控制决策，就像空间智能、具身智能。

就像刚才讲到智能体是AGI的L3，所以现在用到L1、L2的进展之后，后面肯定会提升到L3，让机器人(rén)更好地(dì)做它的推理规划，然后更好更高效地和环境做交互，更好地完成我们的(de)复杂任务。因为(wèi)现在很(hěn)多时候任务相对来说分散(sàn)，给它定义(yì)成一(yī)个简化(huà)的(de)。未来，我们很快可以看(kàn)到它可以接受复杂的指令、完(wán)成复杂的(de)任务，通过(guò)它内嵌的思维链或者过(guò)程的学习方式，能够完成复杂任务。所以到那(nà)个时候，智能的能(néng)力又有一个很巨(jù)大(dà)的提(tí)升(shēng)。

主持人：虽然意料未来都很难，至少心里会有一个期待，比如在下一个18个月里，我们希望看到(dào)什么样的(de)进展，在AGI的领域里？

朱(zhū)军：因为现在整个是(shì)一个(gè)加速，其(qí)实很(hěn)多时(shí)候我们预测(cè)通常(cháng)会过于保守。如(rú)果回(huí)到你(nǐ)的问题，我(wǒ)预想未来(lái)18个月可能比较(jiào)令(lìng)人兴奋的一个进展，我希望看到(dào)AGI的L3已经基(jī)本上实现。至少在智能体，比如我们说(shuō)的(de)世界模型的(de)创建(jiàn)生成、虚实融合(hé)，至少在一些特定场(chǎng)景下的(de)决策能力的巨大的提升。其实它会(huì)利用我(wǒ)们今天讲到的推理、感知等等。

因为我前一段时间(jiān)领了一(yī)个任务，就是(shì)对L4做专(zhuān)门的分析，就是到底我们缺什(shén)么？做了L4的。其实最后调研(yán)或(huò)者是分析下(xià)来，你会发现如(rú)果(guǒ)我(wǒ)们要做科学发现或者做创新，它需要的那些能力，可能(néng)目(mù)前是散(sàn)落(luò)在(zài)各个角落里面，当然现在可能还缺一个系统怎么把(bǎ)这(zhè)些东西集成(chéng)在一起(qǐ)，给它做work。所以我觉得如果更激进(jìn)一点，我甚至觉得未(wèi)来18个月可(kě)能在L4上也会有显著的(de)进展。当然这(zhè)里面我讲的是严肃(sù)的科学发现(xiàn)，其实L4还有一些创意的表达上，目前我们在某(mǒu)种意义上已经达到了(le)，比如(rú)说艺术创造、图生视频，一定(dìng)程度(dù)上(shàng)它(tā)已经帮大家放大(dà)你(nǐ)的想象，或者让你的想(xiǎng)象可以(yǐ)具象化。所以，我对整(zhěng)个于是还是比较乐观的，我觉得至少L3或者未来L4有一些苗子了。

到今年年底，希望将我们本来做的视频模型能(néng)够以更(gèng)加高效、更可控的方(fāng)式提供给(gěi)大家。

我解释一(yī)下高(gāo)效和可控。可控，比如你想表达一个故事，不是简单地将(jiāng)一段话或者一个图片给它动起来，我们是希望你可以连续地讲(jiǎng)，而且它不(bù)光是人(rén)的一致性，还包(bāo)括物体等(děng)各(gè)种主题的(de)一(yī)致性，还包(bāo)括交互性；高效，它一方面解决对算力成本的考量，因(yīn)为你如果想要服务很多(duō)人，让大家用的话，首先你成本要降下来，不然这(zhè)个本身就(jiù)是烧(shāo)钱(qián)，一直赔钱。另外一个更重要的，还(hái)是(shì)从体验上。就(jiù)使用者来说，因为他(tā)想表(biǎo)达自己的创意，他可能需(xū)要多次和系(xì)统来(lái)交互，一方面(miàn)是验证，另外一方面是启(qǐ)发，所以这个过程也(yě)需要你的模(mó)型系统(tǒng)能够比较高(gāo)效，比如(rú)说终极目标达到(dào)实时，能够让(ràng)大(dà)家快速尝试。等到这个阶段，我相信大家的用(yòng)户体验，包(bāo)括用户量都会有一个巨大的提升，这(zhè)是我们今(jīn)年想重点突破(pò)的。当然长远的话，可能明年18个月会走向实体的虚实融合的场景了。

杨植(zhí)鳞(lín)：我觉得接下来(lái)最重要的，可能是开放性的(de)强化学习(xí)，比如说你在产品上跟(gēn)用户交互，在一(yī)个真(zhēn)实的环境里面完成任务，然后(hòu)自(zì)己(jǐ)去进化。当然(rán)，我觉得O1一定程度上说(shuō)明这个方向有(yǒu)比之前(qián)更(gèng)强的确(què)定性，我觉得这个(gè)会是一个(gè)重要的里程(chéng)碑，也是AGI路上现在仅甚唯一的一个重要问题了。所以，我觉得(dé)这个会很关键。

张鹏：对，18个月已经是很长了，如果看看看(kàn)过(guò)去18个月走的路。你未来3个月，有什么(me)可以透(tòu)露的吗？

阶跃星辰姜大昕、月之暗面杨植麟、生数科技朱军，云栖大会激辩“通往AGI的大模型发展之路”="font-L"> 杨植鳞：我们还是希望能够在(zài)产品和技术上持续地创新(xīn)，至少可(kě)能在一两(liǎng)个重要领域能够做到世界最(zuì)好(hǎo)，但是有新的进展会尽快跟大家分享。

姜大昕：第一，我也很期(qī)待强化学习能够进(jìn)一步泛化。另(lìng)外一个(gè)方向其实我也很(hěn)期待(dài)，应该说期待(dài)了很久(jiǔ)就是在视觉领域(yù)的理解(jiě)和生成一体(tǐ)化的事情。因为在(zài)文字(zì)领域，GPT已经做到了理解生成一体化，但遗(yí)憾的是在(zài)视觉领域(yù)，这(zhè)个问(wèn)题当然不是遗憾，它非常难。所以在目前为止，我们看到的视觉的(de)理解和生成，这两(liǎng)个(gè)模(mó)型是分开的(de)。即使像(xiàng)刚才说(shuō)的多模融合(hé)，如果大家仔细看(kàn)GPT4，它(tā)其他模态都解(jiě)决(jué)了，它唯独不(bù)能(néng)生成视频(pín)，所以这(zhè)是一个悬而未决的事情。

它为什么很重要呢？如果我们解决了视频理(lǐ)解生成一体化，我(wǒ)们就可以彻底建立一个多模的世界模型，有一个多模的(de)世界模(mó)型以后(hòu)，可以帮助我们真正产生非(fēi)常长(zhǎng)的视(shì)频，也就是(shì)说解决Sora（音译）目前的技术缺陷。还有一个，它(tā)可以和具身智能相结合(hé)，它可以作为(wèi)机器人的大脑去(qù)帮助智能(néng)体更好地(dì)探索物理世界，所以我也是非常(cháng)期待的。

张鹏：你(nǐ)未来年底之前，有什么我们值得(dé)期待的你的进展？

姜大昕：我也是期(qī)待一方面模(mó)型和技(jì)术的进步，另外一方面产品能带给用户更多更好的体验，其实阶跃有一款产品叫“跃问”，在上面，用户可以体验(yàn)我(wǒ)们最新的万亿参数的模型，它不光是理科很(hěn)强，而且它的文学创(chuàng)作能力也很(hěn)强，经常给(gěi)大家带来一些(xiē)惊(jīng)喜。同时，跃问上还有(yǒu)一个新(xīn)的功能(néng)叫“拍照问”，我们看到用户经常拍(pāi)张照片去(qù)问食物的卡路里，去问宠物的心情，问一个文(wén)物的前世今生(shēng)，包括Mata眼镜(jìng)的发布，还有Apple Intelligence，它今年都突出(chū)了视觉交互的功能。所以我们在跃问上也(yě)有体现，而且我们会(huì)努力一步步把这个功能做得越(yuè)来(lái)越好。

未经允许不得转载：東君御酒中华神酒天下第一酒酒中的劳斯莱斯,喝東君酒60变30 极品原料、天人合一、内外皆养、极致品位、色香味力、旷世享受、珍奇百草酿美酒、天地造化四海扬、盖世秘传历千秋、神奇美酒東君王阶跃星辰姜大昕、月之暗面杨植麟、生数科技朱军，云栖大会激辩“通往AGI的大模型发展之路”