阶跃星辰姜大昕、月之暗面杨植麟、生数科技朱军,云栖大会激辩“通往AGI的大模型发展之路”
【TechWeb】9月20日消息,在(zài)2024云栖大会上,极客公园创始(shǐ)人、总裁 张 鹏对话阶跃星辰创始(shǐ)人、首席执行官姜大昕(xīn),月之暗面Kimi创始人(rén) 杨植麟,清华 大学人工智能(néng)研究院副院长、生数科技首席科学家朱军,三人对AGI发展现状和(hé)未来展望(wàng)进(jìn)行了激烈讨论和(hé)前瞻展望。
2024年,AI 发展变慢了吗?过去18个月(yuè),AGI的发展是加速还是减速?如何评价OpenAI 最新发布的 O1 模型?强化学习将改变什么?大模型时(shí)代(dài)的创业新(xīn)范式是 什么?
姜大昕表示(shì)AI 技术发展加速, AI 发展正在经历关(guān)键的(de)技术范式迭代: OpenAI 的大模型 o1 探索出了通(tōng)过(guò)强(qiáng)化学习让 AI 具备(bèi)人类(lèi)慢思考(可主动反思、纠错的复(fù)杂思考)能力的方式,接下 来提升强(qiáng)化学习模(mó)型的(de)泛化能力和加速推进多模态理解生成(chéng)一(yī)体化是 AI 技术进一步突破(pò)的关键。阶跃星辰积极探索新的技术范式,已经在万亿参数模型上实(shí)现了强化学 习训(xùn)练的方法(fǎ)论。同时,持续打(dǎ)磨更高性能的底层大模型(xíng),提升C端产品体验。据他透露,近期阶跃星辰自研的 Step-2 万亿参数 MoE 语言大模型已接入智能助手“跃问”,展现出更强大的(de)指令跟随、创作和推理能(néng)力。
谈到AI产品未来的可(kě)能形态,杨植麟表示,以后(hòu)的AI可能要思考或者(zhě)调用各种工 具,它可能执行分钟级别、小时级别甚至天级别的任务,所(suǒ)以产(chǎn)品形 态上可能(néng)会(huì)更(gèng)接(jiē)近一个人,它更接近“助理(lǐ)”的概念,帮(bāng)你完成异步的任务。这里面的产品形态设计可能也会发(fā)生很大的(de)变化(huà),想象空(kōng)间蛮大。
谈到未来18个可能发 生的事情,朱军(jūn)表示,预想未来18个月可能(néng)比(bǐ)较令人兴奋的一个进展,我希(xī)望看(kàn)到AGI的(de)L3已经基本上实现。至少在智能体,比(bǐ)如我们说的世界模型的创建生成、虚实融合,至少在一些(xiē)特定场(chǎng)景(jǐng)下的决策能力(lì)的(de)巨大的提升。其实它会利用我们今天讲到的(de)推(tuī)理、感知(zhī)等等。
以下为对话实(shí)录(lù)摘录:
主持(chí)人:从ChatGPT的(de)发展,引发了整(zhěng)个世界(jiè)对于AGI这(zhè)个事(shì)情的理解,发展到现在也18个月了(le)。各位的感受(shòu)是怎么样的,过去18个月,AGI的发展是加速还是减速?
姜大昕:我觉(jué)得过去18个月速度还(hái)是在加速的,速(sù)度(dù)还是非常快的。因(yīn)为当我(wǒ)们回顾过去18个月发生的大大小小(xiǎo)的AI事件(jiàn)以后,可以从两个维度去看 ,一个是数量的(de)角度,一个是质量的(de)角度。
从数(shù)量的(de)角度来(lái)看,还是每(měi)个(gè)月都会(huì)有新(xīn)的模型、新(xīn)的产品、新的应用涌现出来。比如单从(cóng)模型来看,OpenAI 2月份发了一个sora,我记得当时(shí)还是过年的时(shí)候,把大家轰炸(zhà)了一(yī)下。然后5月份出了一(yī)个GPT-4o,上周又出了o1。OpenAI的老(lǎo)对手Anthropic它有Claude3到Claude3.5的系列,再加(jiā)上(shàng)谷(gǔ)歌Gemini系列(liè)、Claude系(xì)列、LLaMA的系列,等等。
所(suǒ)以,回顾过去,我们的感觉还(hái)是GPT-4是(shì)一家独大,遥遥领先。到了今年就变成了一个好像(xiàng)是(shì)群雄并起,你追我赶的局(jú)面,所 以感觉各家是在(zài)提速了。
从质量的角度来看,我觉得有三件事情可能给我的印象(xiàng)非(fēi)常的深刻(kè)。
第一件事 情,GPT-4O的发布。因为我看它,认为它(tā)是在多(duō)模融合这样的一个领域上了一个新的台阶。在GPT4O之前(qián),是有GPT4V,它(tā)是一个(gè)视觉的(de)理(lǐ)解模型,有Dalle、Sora,这是视觉的生成模型。还有Whisper这是(shì)声音模型。所以原本(běn)这(zhè)些孤(gū)立的模型到了4O这里都融合在(zài)一起了。
那为什么融合这件事情非常的重(zhòng)要?是因为我们的物理世界本(běn)身就是一个多(duō)模的世界(jiè),所以多模融合一定是有(yǒu)助于更好(hǎo)的去为我们的物理世界建模,去模拟世界这样一件事(shì)情。
第二件事情,特斯拉发布的FSD V12。大家知道它是(shì)一(yī)个端到端的 大模型,它把感(gǎn)知信号变(biàn)成一个控(kòng)制序列。智驾是一个非常有代表性的,它是一(yī)个从数字世界走向(xiàng)物理世界一个真实的应用场(chǎng)景。所以,我觉得FSDV12它的成功,意义(yì)不仅(jǐn)在于智驾本(běn)身(shēn),这套方法论可(kě)以认为是为将来的智能设备如何和大模型相结合,更(gèng)好的去探索物理(lǐ)世界指明了一个方向。
第三件事情 ,上周(zhōu)的O1,我(wǒ)对它的理解,它第一次证明了语言模(mó)型其实也可以有人脑的慢思考,就(jiù)是系统2的能力。而我们觉得系统2的能力它是归纳世(shì)界所必备的一个前提条件,是一个基础的能(néng)力。所(suǒ)以 ,我们一(yī)直(zhí)认为,AGI的演进路线可以分为(wèi)模拟世界、探索世界、最后归纳世界(jiè)。而(ér)过去几个月的时间我们(men)看到GPT4O、FSD V12和O1分别在这三个阶段或者这三个(gè)方(fāng)向上都取得了非常大的突(tū)破,而且更重要的是为将来的发(fā)展也(yě)指明了一个方向。所以无论(lùn)是从数量还是(shì)质量上来说,都是可圈可点。
杨植麟:我觉得整体也(yě)是属于加速发展的阶段,核心可以从两个维(wéi)度来看(AI的发(fā)展),第一个维度是纵(zòng)向的维度,也(yě)就是说你的智(zhì)商(shāng)是一直在提升的,这个 主要现在的反应方式还是你去看文本模型能做到多好。第二个是横向(xiàng)的发展。除了文本模型(xíng)之外,刚才姜总提到的,也会有各种不同的模态,这些模态会做一个横向的发展,更多的让你这个模型具备更多的(de)技能,能够去完成更多的任务(wù),然后同时跟纵向的智商的发展相结合。
在(zài)这两个维度上(shàng),我(wǒ)觉得都看到了非常大的进(jìn)展,比如说在纵向的维度上(shàng),其实智商是一直在提升的(de),比如说我们如果去看(kàn)竞赛数学能力(lì),去年是完(wán)全不及格,到今年已经能做到90多分,像代码(mǎ)基(jī)本上也是一样,能够(gòu)击败很多专业的编(biān)程选 手,包括(kuò)因此(cǐ)也产生了很多新(xīn)的应用(yòng)机会,比如说像现在比较(jiào)流行的类(lèi)似curser这样的,通过(guò)自(zì)然语言直接去写代码的这样的软件也越(yuè)来越普及,这是技术发展的结果。包括我们去看(kàn)很多具体(tǐ)的技术指标,现在的语言(yán)模型能支持(chí)的上下(xià)文的长度,我(wǒ)们如果去年这个时间点去(qù)看(kàn)的(de)话,大部分的模型都只能支(zhī)持4K-8K的,但是从今天去看你会发现4K-8K已经是非常低的数了,128K是一个标配(pèi),已经有很多可以支持1M甚至10M的长文本的长(zhǎng)度。所(suǒ)以,它这 个其实也是后面你的智商不断提升的一个很(hěn)重(zhòng)要的基础。
包(bāo)括(kuò)最(zuì)近的很多进展,它不(bù)光只是说Scaling,Scaling还是会持(chí)续。而且很多进展也来自于你的后(hòu)训练算法的优化(huà),来自于你数(shù)据的优(yōu)化,这(zhè)些优化它(tā)的周期是会更短(duǎn)的。所以(yǐ),这个周期更短导致你(nǐ)整体AI发展(zhǎn)节奏(zòu)也会进一步加快,包括(kuò)我们最近(jìn)在数学上看到的很多进展(zhǎn),其实也是得益于这些(xiē)技术的发展。
横向上当然也产生了很多新(xīn)的突破,当然Sora可能是影响力最大的,在这里面完成(chéng)了这个视频(pín)生成。包括最近有(yǒu)特别多新 的产品和技术出来,现在你已经可以通过一个论文直接(jiē)生成基本上你看不出来是真是假的双人的对话。类似(shì)这(zhè)样的不同模(mó)态之(zhī)间的转化、交互和生成,其实会变的越来越成熟(shú)。所以,我(wǒ)觉得整体 是在加速的过程中。
朱军:AGI这里 面大家最关注的还是大(dà)模型,刚才两位也讲了去年包括今年大(dà)模型也发生了很多(duō)重要的变化(huà)。整个的进展我(wǒ)是非常同意刚才讲到的,在加(jiā)快。
另外,我想补(bǔ)充(chōng)一点,大家在解新的问题,这个速度 也在加快了,我们说它的Leaning corve在变的更陡。原来(lái)如果你看语言模型,可能从2018年最早去做的,到去年以及到今年,大家走了五六(liù阶跃星辰姜大昕、月之暗面杨植麟、生数科技朱军,云栖大会激辩“通往AGI的大模型发展之路”)年的路(lù)。但其实(shí)从去年(nián)开始,上半(bàn)年大家还(hái)是关注(zhù)语言模型,下半年在讨(tǎo)论多(duō)模态,从多模态理解再到多模态生成。我们再回过头看的话,比如说图像或者(zhě)视频,其实视频最明显,从今年的(de)2月份,当时很多人被震惊到(dào)了,因为(wèi)它很多没有公开,就说怎么去突破?有很(hěn)多的讨论(lùn)。但事实上我们现在看到这个(gè)行业里面,大概用了半年的时间,已经(jīng)做到了可(kě)以去用(yòng),而且达到了一个很(hěn)好(hǎo)的一些效果,在时空一致(zhì)性上。所以大概(gài)走了半年的路。
所以这(zhè)里面加速的一个最核(hé)心的原因,现在大家对这种路(lù)线(xiàn)的认知和准备上,达(dá)到了比较好的程度。当然(rán)我们还有物理的条件(jiàn),比如说像(xiàng)云(yún)的设施,计算的资源的准备(bèi)上,不(bù)像ChatGPT当时出(chū)来的时候,大家当时更多的是一种不知所措,我觉得很多人可(kě)能没准备好去接受这个,所以中间去花了很长时间去(qù)学习(xí)、去掌握这个。当我们掌握(wò)了之后再发现(xiàn)这个进展的话,再去(qù)做新(xīn)的问(wèn)题,其(qí)实它的速度是越来越快的。
当然,这个可能不同的能(néng)力它再辐射(shè)到实际的用户的角度(dù)来说,有一些快慢之(zhī)分,当然也分行(xíng)业。这个可能(néng)在广泛(fàn)的 角(jiǎo)度来说,大家可能没感知到。但是从(cóng)技术来说,其实(shí)这个进展(zhǎn)我感觉(jué)是(shì)曲线越来越陡,而且可能对后边(biān)我们要(yào)预测未来(lái)的话,包括向更高阶的AGI发(fā)展,我是比较乐观的(de),可能会看到比之(zhī)前更快的速度去实现了。
主持(chí)人:最近OpenAI刚刚出的O1的新的(de)模型,也是(shì)在专业人群里形成了非(fēi)常多的影响,现在还在很(hěn)丰富的讨论(lùn)。怎么评价O1进展的意义?
姜大昕:确实我看到一些非共识,有些人觉得意义很大,有些人觉得也不过如此。我觉得大家如果去试用(yòng)O1的话,可(kě)能第一印(yìn)象(xiàng)是(shì)它(tā)的推理(lǐ)能力确实非常惊艳(yàn),我(wǒ)们自己试了很多Query,觉得推(tuī)理(lǐ)能力确实上了一个(gè)很大的台阶。
然后我们去思考它背后的意义究竟是什么(me),我(wǒ)能想(xiǎng)到的(de)有两点:1.它第(dì)一次证明了Large language model,就是语言模型,它可以有人脑的慢思(sī)考的能力。它(tā)和以前GPT的范(fàn)式(shì),或(huò)者(zhě)GPT的训练,它叫,Predict next Token,它只(zhǐ)要(yào)这样训练了,就注(zhù)定了它只有system 1的能(néng)力(lì)。而(ér)O1是用了一个强化学(xué)习的训练框架,所(suǒ)以(yǐ)带来(lái)了系(xì)统2的能力。
系统1的体(tǐ)现,它是一个(gè)直线性思维,虽然我们看到GPT4有时候可以把一个复(fù)杂的问题拆解成很多步,然后分步去解决,但它还是(shì)直线性的。系统1和系统2最大的区(qū)别在于,系统2能够去探索不(bù)同的路(lù)径(jìng),它能够自(zì)我去反思、自我去纠错(cuò),然后不断的试(shì)错,直到找(zhǎo)到一个正确的途径,这是(shì)系统2的特点。这次O1,它是把以前的模仿学习和强化学习结合(hé)起(qǐ)来了,使得一个模型(xíng)同时有了人脑系统1和系统2的(de)能(néng)力。所以我觉得从这个角度来看,它的意义是非常大(dà)的。
第二,它带来了一(yī)个Scaling Law的(de)新方向,我理解O1试图回答(dá)的一个问题,就是说RL(强化学习)究竟怎么去泛化。因为强化学习它不是第一个,DeepMind一直走的是强化学习的路线,从AlphaGo到AlphaFold到AlphaGeometry,其实(shí)它在强化学习上是(shì)非(fēi)常厉害(hài)的。但(dàn)以前(qián)强化学习的场(chǎng)景都是会为特定(dìng)场景(jǐng)去设计(jì),AlphaGo只能(néng)下围棋(qí),AlphaFold只能去预测(cè)蛋(dàn)白质的结构。所(suǒ)以这次O1的出(chū)现,它是在RL强化学习通用性和(hé)泛化性(xìng)上了一个大的台阶,而(ér)且它scale到了(le)一个很大的规模,所以我把它看成scaling带来新的技术(shù)范(fàn)式,我们不妨称之为RL Scaling。而且阶跃星辰姜大昕、月之暗面杨植麟、生数科技朱军,云栖大会激辩“通往AGI的大模型发展之路”(qiě)我们看到有意思的一点,O1并没有到很成熟的(de)阶段,它还(hái)是一个开端,但是这个恰恰让人觉得非常的兴奋,这就等于OpenAI跟(gēn)我们说,我(wǒ)找到了一条上(shàng)限很高的道路,而(ér)且你仔细去(qù)思考它背(bèi)后(hòu)的方法,你会相信这条路实际上是能走得下去。所以O1从能力上来讲,我觉(jué)得它展示了 Language model可以有系统2的能力,从技术上来说它带来新的(de)scaling范式,所以它的意义还是(shì)非常大的。
朱军:我的看法,它是代表着一个显著的质变(biàn)。我们也对AGI大概做了一些分级,学术界,包括产业界大家有 L1-L5的分级。其实L1的话相(xiāng)当于聊天机器人,就(jiù)是像(xiàng)ChatGPT等,之前大家做了很多对话的。L2叫(jiào)推理者,实际上(shàng)可以做复杂问(wèn)题深(shēn)度思考的推理。L3叫智(zhì)能体,回应吴总讲的“数字世界”走向(xiàng)“物理世界”,我要去改变的,我要去(qù)交互的。L4是创(chuàng)新者,它要去发现、创造一些新的东西,或者发(fā)现一些新(xīn)的知识。L5是组织者,它可以(yǐ)去协同,或者某(mǒu)种组织方式(shì)更高效来运转,这是大家对于AGI L1-L5的分级,当然每一级也有narrow和general的区分,在某些Task上展示出来。比如O1在L2的narrow场景下,在一些特定任务下已经实现了人(rén)类达到很(hěn)高阶的(de)智能水平。我觉得从分级角度来看,它确实代表着(zhe)整个(gè)行业(yè)巨大的进步(bù)。
刚才技术上姜总也讲(jiǎng)了,它将过(guò)去强化学习或者其他一些技(jì)术,其实在研究里已经做了很多东(dōng)西,但实际上它在大规模基座模型上(shàng)能(néng)够做出来的效果,这还是从工程上,或(huò)者从实现上来说对行业很大的触动。当然它也会错发或者激发出来很多未来的(de)探索,或者实际的研发,可能会(huì)走向从narrow到general的跃迁。刚才讲到速(sù)度,我相信它会很快(kuài),因为(wèi)大家已经有很多准备了,我也期待这个领域里更多将L2做得更(gèng)好,甚(shèn)至更高阶的能实现。
杨植麟:我觉得(dé)它的意义确实是很大,主要意义在于它(tā)提(tí)升了AI的上限(xiàn)。AI的上限(xiàn)是说,你(nǐ)现在去提升(shēng)5%、10%的生产力,还是(shì)说10倍的GDP,我觉得这里最重(zhòng)要的问题就是(shì)你能不能通过强化学习进一步scaling,这是完全提(tí)升了 AI上限的(de)东西。我们(men)如果看AI历史上(shàng)七八(bā)十年的发展(zhǎn),唯一有效的就(jiù)是scaling,唯一(yī)有效的就是加(jiā)更多的算力。但(dàn)在O1提出之(zhī)前,可能也有(yǒu)很多人在研究强化(huà)学习,但都没有一个非常确(què)切的答案,强化(huà)学(xué)习如果和大语言模型,或(huò)者和training processin这些东西整合(hé)在一起,它能否持续提升。比如GPT4这(zhè)一代模型的提升,更多是确定性的提升(shēng),我(wǒ)在一样范式下把规模变得更大,它(tā)肯定是确定性的(de)提升。但是我觉得O1的提升并不是一个完全确定性的(de),这样的提升。
所以在之前大家(jiā)可能会(huì)担心现在互联网上(shàng)大部分优质数(shù)据都已经被使用完了,然后你(nǐ)可能(néng)继续使用这(zhè)个数(shù)据也没有(yǒu)更(gèng)多数据可以挖掘,所以你原来的范(fàn)式可能会遇(yù)到问题。但AI有效了,你又需要进一步scaling,那你 这个scaling从哪里来,我觉得很(hěn)大程度(dù)上(shàng)解决了这(zhè)个问题,或者说至少证明了它初步(bù)可行。初步可行的情况下,可能我们会有越来越多人投入去做这个事(shì)情,最终 你要做到10倍GDP的最终效果,它完(wán)全有可能,我觉得是一个很重要的开端(duān)。
我觉得对(duì)很多产业格局上,或者对于(yú)创业公司(sī)新机会来说也会发生一些变化。比如我(wǒ)觉得这里很(hěn)关键的一个点,你的(de)训练和推理算力占比是会发生很大的变化,这个变化(huà)我不是说训练(liàn)的算力会下(xià)降,训练的算力还会(huì)持(chí)续提升。与此同(tóng)时,推理的算力提升会更快(kuài),那这个比例(lì)的变化本质上(shàng)会产生很多新的机会,可能(néng)这里很多新的创业公司的机会。一方面,如果你达到一(yī)定的(de)算力门槛,它可以在这里做很多算法的基(jī)础创新(xīn),那你可(kě)以在基础的模型(xíng)上甚至取得突破,所以我觉得这个很重要。
对于算力相对小一点的公司,它也可以通过后训练的方式,在一些领域上做(zuò)到(dào)一些效果,这里也会(huì)产生更多的产品和技术机会,所以我觉得(dé)整体也是打(dǎ)开了创业相关的想象空间。
主持人:这一波AI新(xīn)的(de)变(biàn)化,接下(xià)来会对AI相(xiāng)关的产品带来什么样(yàng)的连锁反应,这个变化(huà)如何发生?
杨植麟:这是很好的问题,我们现在还是处于(yú)产(chǎn)业发展的早(zǎo)期(qī)。产业发展(zhǎn)的早期有(yǒu)一个特点,还是技术驱动产品会更多,所以很多(duō)时候你的产品会去看当前的技术是怎么发展(zhǎn),然后把它最大(dà)化的价值提(tí)取出来(lái),所以这个(gè)问题首先非常好,可能我们根据这个新的(de)技术进展,再返过来(lái)推一下(xià)现(xiàn)在产品应(yīng)该做什么变化。
现在的技术发(fā)展有几个点(diǎn):
一(yī)个,我觉得这里面会有很多探索新的PMF(product market fit)的机会。我觉得PMF指的是(shì)两个东西的平衡:一方面是由于你(nǐ)需要做这种系(xì)统2的思考,导致你的延时增加。对用户来说,延时增加是一个(gè)负向的体验,因(yīn)为所有用户都希望(wàng)我尽(jǐn)快能拿到结果;第二个点,它确实能提供更好(hǎo)的输(shū)出,能拿到(dào)更好的结果,甚至能完成一(yī)些跟(gēn)更复杂的任务。等于说新的PMF产生的过程(chéng)或者(zhě)探索的过程,其实是要在在延时增长的用户体验下降和最(zuì)后(hòu)结果产生质量更高的用(yòng)户价(jià)值的上升之间找到一个平衡点(diǎn)。所以你要让这个(gè)增(zēng)量的价值是大于体验的损失(shī),我觉得这(zhè)个(gè)很(hěn)重要。所以在这里面更高价值的场景(jǐng),特(tè)别是生产(chǎn)力的场景,我觉得(dé)会率先有一些东西出来。因为(wèi)如果你是一个娱乐场景,大概(gài)率你可能(néng)很难忍受这种(zhǒng)延时上的增加。所以(yǐ),我觉得这是比(bǐ)较重要的一点
产品形(xíng)态上(shàng),我觉得也会(huì)发生一些变化。因为你引入这种思考的(de)范式,所以现在同步及时 的 类似聊天(tiān)的产品形态一定会发生变化。因为以后的AI,可能它不光是现在(zài)思考个20秒、40秒,它已经可(kě)能要思考或者调(diào)用(yòng)各种工具,它(tā)可能执(zhí)行分钟级别、小时级别甚至天级别的任务,所以(yǐ)你的产品形态上可能(néng)会更接近一个人,它更接近“助理”的概念,帮(bāng)你(nǐ)完成异步(bù)的任务。这里面的产(chǎn)品形态设计,我觉得可能也(yě)会发生很(hěn)大的变化。所以这里面,我觉得新的想象(xiàng)空(kōng)间蛮大的(de)。
朱(zhū)军:我觉(jué)得大模型或者大规模预训练的技术代(dài)表(biǎo)着整个范式的变化,前面 也聊到很(hěn)多,不光是语言,到多(duō)模态,到具身、空(kōng)间智(zhì)能,中间还(hái)是想(xiǎng)我怎么去让智能体(tǐ)能够(gòu)有交互,能够在这个过(guò)程中来学习。从智能(néng)的角度来(lái)看,包括从AGI发展上,它(tā)是一个必然,因为决(jué)策、交互实际上是我们说的智能(néng)里面非常核心的能力的体(tǐ)现。我们每时每(měi)刻其实(shí)都在做决策(cè),我(wǒ)们(men)面(miàn)对(duì)的(de)是一个未知的开放环境,所以(yǐ)对于智能来(lái)说,它的发展路径(jìng)上,在整个规划里(lǐ)面大家也是朝着这个方向(xiàng)走。
现在所有这些进展,包括刚(gāng)刚 讨论很多的O1,包括做视频生成,或(huò)者3D,这些东西大家最后要指向的有两个方向:
一个是给消费者看到的这些数字(zì)内容,就是说看上去(qù)很好看、很自然,能够讲故事,能够(gòu)让大家参与讲故事、能够(gòu)交互。这(zhè)肯定是一个很重要的 方(fāng)向,在数字内(nèi)容上。
另外一个方向,指向实体、指向(xiàng)物理世界。
现在可能最好的一(yī)个(gè)结合点就是和机(jī)器人来结合在(zài)一(yī)起。其(qí)实现在(zài)已经有好多(duō)例子在展示出来,我(wǒ)们也看到很好(hǎo)的一 些进 展(zhǎn),比如用了预(yù)训练的范式,如何让机(jī)器人的能力具有通用性;比如我们自(zì)己实验室做多的例子,像四足机器人(rén),过去大家在不同(tóng)场(chǎng)地上,你要让它跑起来都需要(yào)用很多的人工调参。但现在你在一个仿真环(huán)境里面,或者(zhě)用一些AI的方(fāng)式来生成一(yī)些合成(chéng)数据,让它(tā)在里面大规模地训练,训练(liàn)出(chū)来的策略可以(yǐ)灌到(dào)机器人上,它相(xiāng)当于换(huàn)了一副大脑,可(kě)以让它的四肢更好地协同起来(lái),同样一(yī)套策略可以做各 种场地的(de)适应。其实这还是一个初步的例(lì)子,现在大家也(yě)在关注更复杂的控制决策,就像空间智能、具身智能。
就像刚才讲到智能体是AGI的L3,所以现在用到L1、L2的进展之后,后面肯定会提升到L3,让机器人(rén)更好地(dì)做它的推理规划,然后更好更高效地和环境做交互,更好地完成我们的(de)复杂任务。因为(wèi)现 在很(hěn)多时候任务相对来说分散(sàn),给它定义(yì)成一(yī)个简化(huà)的(de)。未来,我们很快可以看(kàn)到它可以接受复杂的指令、完(wán)成复杂的(de)任务,通过(guò)它内嵌的思维链或者过(guò)程的学习方式,能够完成复杂任务。所以到那(nà)个时候,智能的能(néng)力又有一个很巨(jù)大(dà)的提(tí)升(shēng)。
主持人:虽然意料未来都很难,至少心里会有一个期待,比如在下一个18个月里,我们希望看到(dào)什么样的(de)进展,在AGI的领域里?
朱(zhū)军:因为现在整个 是(shì)一个(gè)加速,其(qí)实很(hěn)多时(shí)候我们预测(cè)通常(cháng)会过于保守。如(rú)果回(huí)到你(nǐ)的问题,我(wǒ)预想未来(lái)18个月可能比较(jiào)令(lìng)人兴奋的一个进展,我希望看到(dào)AGI的L3已经基(jī)本上实现。至少在智能体,比如我们说(shuō)的(de)世界模型的(de)创建(jiàn)生成、虚实融合(hé),至少在一些特定场(chǎng)景下的(de)决策能力的巨大的提升。其实它会(huì)利用我(wǒ)们今天讲到的推理、感知等等。
因为我前一段时间(jiān)领了一(yī)个任务,就是(shì)对L4做专(zhuān)门的分析,就是到底我们缺什(shén)么?做了L4的。其实最后调研(yán)或(huò)者是分析下(xià)来,你会发现如(rú)果(guǒ)我(wǒ)们 要做科学发现或者做创新,它需要的那些能力,可能(néng)目(mù)前是散(sàn)落(luò)在(zài)各个角落里面,当然现在可能还缺一个系统怎么把(bǎ)这(zhè)些东西集成(chéng)在一起(qǐ),给它做work。所以我觉得如果更激进(jìn)一点,我甚至觉得未(wèi)来18个月可(kě)能在L4上也会有显著的(de)进展。当然这(zhè)里面我讲的是严肃(sù)的科学发现(xiàn),其实L4还有一些创意的表达上 ,目前我们在某(mǒu)种意义上已经达到了(le),比如(rú)说艺术创造、图生视频,一定(dìng)程度(dù)上(shàng)它(tā)已经帮大家放大(dà)你(nǐ)的想象,或者让你的想(xiǎng)象可以(yǐ)具象化。所以,我对整(zhěng)个于是还是比较乐观的,我觉得至少L3或者未来L4有一些苗子了 。
到今年年底,希望将我们本来做的视频模型能(néng)够以更(gèng)加高效、更可控的方(fāng)式提供给(gěi)大家。
我解释一(yī)下高(gāo)效和可控。可控,比如你想表达一个故事,不是简单 地将(jiāng)一段话或者一个图片给它动起来,我们是希望你可以连续地讲(jiǎng),而且它不(bù)光是人(rén)的一致性,还包(bāo)括物体等(děng)各(gè)种主题的(de)一(yī)致性,还包(bāo)括交互性;高效,它一方面解决对算力成本的考量,因(yīn)为你如果想要服务很多(duō)人,让大家用的话,首先你成本要降下来,不然这(zhè)个本身就(jiù)是烧(shāo)钱(qián),一直赔钱。另外一个更重要的,还(hái)是(shì)从体验上。就(jiù)使用者来说,因为他(tā)想表(biǎo)达自己的创意,他可能需(xū)要多次和系(xì)统来(lái)交互,一方面(miàn)是验证,另外一方面是启(qǐ)发,所以这个过程也(yě)需要你的 模(mó)型系统(tǒng)能够比较高(gāo)效,比如(rú)说终极目标达到(dào)实时,能够让(ràng)大(dà)家快速尝试。等到这个阶段,我相信大家的用(yòng)户体验,包(bāo)括用户量都会有一个巨大的 提升,这(zhè)是我们今(jīn)年想重点突破(pò)的 。当然长远的话,可能明年18个月会 走向实体的虚实融合的场景了。
杨植(zhí)鳞(lín):我觉得接下来(lái)最重要的,可能是开放性的(de)强化学习(xí),比如说你在产品上跟(gēn)用户交互,在一(yī)个真(zhēn)实的环境里面完成任务,然后(hòu)自(zì)己(jǐ)去进化。当然(rán),我觉得O1一定程度上说(shuō)明这个方向有(yǒu)比之前(qián)更(gèng)强的确(què)定性,我觉得这个(gè)会是一个(gè)重要的里程(chéng)碑,也是AGI路上现在仅甚唯一的一个重要问题了。所以,我觉得(dé)这个会很关键。
张鹏:对,18个月已经是很长了,如果看看看(kàn)过(guò)去18个月走的路。你未来3个月,有什么(me)可以透(tòu)露的吗?
阶跃星辰姜大昕、月之暗面杨植麟、生数科技朱军,云栖大会激辩“通往AGI的大模型发展之路”="font-L"> 杨植鳞:我们还是希望能够在(zài)产品和技术上持续地创新(xīn),至少可(kě)能在一两(liǎng)个重要领域能够做到世界最(zuì)好(hǎo),但是有新的进展会尽快跟大家分享。
姜大昕:第一,我也很期(qī)待强化学习能够进(jìn)一步泛化。另(lìng)外一个(gè)方向其实我也很(hěn)期待(dài),应该说期待(dài)了很久(jiǔ)就是在视觉领域(yù)的理解(jiě)和生成一体(tǐ)化的事情。因为在(zài)文字(zì)领域,GPT已经做到了理解生成一体化,但遗(yí)憾的是在(zài)视觉领域(yù),这(zhè)个问(wèn)题当然不是遗憾,它非常难。所以在目前为止,我们看到的视觉的(de)理解和生成,这两(liǎng)个(gè)模(mó)型是分开的(de)。即使像(xiàng)刚才说(shuō)的多模融合(hé),如果大家仔细看(kàn)GPT4,它(tā)其他模态都解(jiě)决(jué)了,它唯独不(bù)能(néng)生成视频(pín),所以这(zhè)是一个悬而未决的事情。
它为什么很重要呢 ?如果我们解决了视频理(lǐ)解生成一体化,我(wǒ)们就可以彻底建立一个多模的世界模型,有一个多模的(de)世界模(mó)型以后(hòu),可以帮助我们真正产生非(fēi)常长(zhǎng)的视(shì)频,也就是(shì)说解决Sora(音译)目前的技术缺陷。还有一个,它(tā)可以和具身智能相结合(hé),它可以作为(wèi)机器人的大脑去(qù)帮助智能(néng)体更好地(dì)探索物理世界,所以我也是非常(cháng)期待的。
张鹏:你(nǐ)未来年底之前,有什么我们值得(dé)期待的你的进展?
姜大昕:我也是期(qī)待一方面模(mó)型和技(jì)术的进步,另外一方面产品能带给用户更多更好的体验,其实阶跃有一款产品叫“跃问”,在上面,用户可以体验(yàn)我(wǒ)们最新的万亿参数的模型,它不光是理科很(hěn)强,而且它的文 学创(chuàng)作能力也很(hěn)强,经常给(gěi)大家带来一些(xiē)惊(jīng)喜。同时,跃问上还 有(yǒu)一个新(xīn)的功能(néng)叫“拍照问”,我们看到用户经常拍(pāi)张照片去(qù)问食物的卡路里,去问宠物的心情,问一个文(wén)物的前世今生(shēng),包括Mata眼镜(jìng)的发布,还有Apple Intelligence,它今年都突出(chū)了视觉交互的功能。所以我们在跃问上也(yě)有体现,而 且我们会(huì)努力一步步把这个功能做得越(yuè)来(lái)越好。
未经允许不得转载:東君御酒 中华神酒 天下第一酒 酒中的劳斯莱斯,喝東君酒60变30 极品原料、天人合一、内外皆养、极致品位、色香味力、旷世享受、珍奇百草酿美酒、天地造化四海扬、盖世秘传历千秋、神奇美酒東君王 阶跃星辰姜大昕、月之暗面杨植麟、生数科技朱军,云栖大会激辩“通往AGI的大模型发展之路”
最新评论
非常不错
测试评论
是吗
真的吗
哇,还是漂亮呢,如果这留言板做的再文艺一些就好了
感觉真的不错啊
妹子好漂亮。。。。。。
呵呵,可以好好意淫了