阶跃星辰姜大昕、月之暗面杨植麟、生数科技朱军,云栖大会激辩“通往AGI的大模型发展之路”
【TechWeb】9月20日消息,在2024云栖大会上,极客公园创始(shǐ)人、总(zǒng)裁 张(zhāng)鹏对话阶跃星辰创(chuàng)始人、首席执行官姜大(dà)昕,月之暗面Kimi创始人 杨植麟,清华大学人(rén)工智(zhì)能研究院副院长、生(shēng)数科技首席科学家朱军,三人对AGI发展现状和未来展(zhǎn)望进行(xíng)了(le)激烈讨论和前瞻展望。
2024年,AI 发展变慢了(le)吗(ma)?过去18个月,AGI的发展是(shì)加速(sù)还(hái)是减速?如(rú)何评(píng)价OpenAI 最新发布的 O1 模型(xíng)?强化学习将改变什么?大模型(xíng)时代的(de)创业新范(fàn)式是什么 ?
姜大昕表示AI 技术发展加速, AI 发展正在(zài)经历关键的技术范式迭代: OpenAI 的大模型 o1 探索出了通过强化学(xué)习让(ràng) AI 具备人类慢思考(可主动反思、纠错的复杂思考(kǎo))能力的(de)方(fāng)式,接下来提(tí)升强化学习模型的(de)泛化能力和加速推进多模态理解生成(chéng)一体化是 AI 技术进一(yī)步(bù)突破的关键(jiàn)。阶跃星辰积极探(tàn)索新(xīn)的技(jì)术范式,已经在万(wàn)亿参数模型上实 现了强化学习训练的方法论。同时,持(chí)续(xù)打磨(mó)更高性能的底层(céng)大(dà)模型,提(tí)升C端产品体验。据他(tā)透露,近期阶跃星辰自研的 Step-2 万亿参(cān)数 MoE 语(yǔ)言大模型已接入智能助手“跃问”,展(zhǎn)现出更强大(dà)的指令跟随、创作和推理能力。
谈到AI产品未 来的可能形态,杨植麟表示,以后的AI可能要思考(kǎo)或者(zhě)调用各(gè)种工具(jù),它可能执行分钟级别、小时级别甚至天级别的任务,所以产品(pǐn)形态上可能会更接近一个人(rén),它更接(jiē)近(jìn)“助理”的概念,帮你完成异步的任务。这里(lǐ)面的产品形态设计可能也会发生很大的变化(huà),想象空间蛮(mán)大。
谈到(dào)未(wèi)来18个可能(néng)发生的事情,朱军表示,预想未来18个月可能比较令人兴奋的一个(gè)进展(zhǎn),我希望看到AGI的L3已经基本上实现。至少在智能(néng)体,比如我们说的世界模型的(de)创建生成、虚实融合(hé),至少在一些(xiē)特定(dìng)场景下的决策能力的巨大的提升。其实它会利用我们今 天(tiān)讲(jiǎng)到的推理、感知等等。
以下为对(duì)话实录摘录:阶跃星辰姜大昕、月之暗面杨植麟、生数科技朱军,云栖大会激辩“通往AGI的大模型发展之路”
主持人(rén):从ChatGPT的发展,引发了整个世界对于AGI这个事情的理解,发展(zhǎn)到现(xiàn)在也18个月了。各(gè)位的感(gǎn)受是怎么样的,过去18个(gè)月,AGI的发展是加速还是减速?
姜大昕:我觉得过去18个月(yuè)速度(dù)还是在加速的,速度还是非常快的。因为(wèi)当我(wǒ)们回顾过去18个(gè)月发生的大大小小(xiǎo)的AI事件(jiàn)以后,可以从两个维度去看,一个是数量的角度,一个(gè)是质量的角(jiǎo)度。
从数量(liàng)的(de)角度来看,还是每个月都会有新的模型、新的产品、新的应用涌(yǒng)现出来。比如单从模型来看,OpenAI 2月份(fèn)发了一个(gè)sora,我记得当(dāng)时(shí)还(hái)是过年的(de)时候,把(bǎ)大家轰炸了一下。然后5月份出了一个GPT-4o,上周又出了o1。OpenAI的老对(duì)手Anthropic它有Claude3到Claude3.5的系列,再(zài)加(jiā)上谷歌Gemini系列、Claude系列、LLaMA的(de)系列,等等。
所(suǒ)以,回顾过去,我们的感觉还是GPT-4是一家独(dú)大,遥遥领先。到了今年就变成了一个好像是群雄并起,你追 我赶(gǎn)的局面,所以感觉各家是在(zài)提速了。
从质量的角度来看,我觉 得有 三件事情可能给我的印象非常的深刻。
第一件事情,GPT-4O的发布(bù)。因为我看它,认(rèn)为它是在多模融合这样(yàng)的(de)一个领域上了一个新(xīn)的台阶。在GPT4O之前,是有(yǒu)GPT4V,它是一个视觉的(de)理解模型,有Dalle、Sora,这(zhè)是视觉的生成(chéng)模型。还有Whisper这是(shì)声音模型。所以原本(běn)这些孤立的模型到了4O这里都融合在一起了。
那为什么融合这件事情(qíng)非常的重要(yào)?是因为(wèi)我们的物理世界(jiè)本身就是一(yī)个多模(mó)的世(shì)界(jiè),所以多模融 合一定是有助于更(gèng)好的 去为我们 的物(wù)理世界建模,去模拟世(shì)界这样一件事(shì)情。
第二件事情,特斯拉发布的FSD V12。大家知(zhī)道它是一个端到 端的大模(mó)型,它把感知信号变成一个控制序列(liè)。智驾是一(yī)个非常有代表(biǎo)性的,它是一个从数字世界走向物(wù)理世界(jiè)一个真实的(de)应用场景。所以(yǐ),我觉得FSDV12它(tā)的成功(gōng),意义不仅在于智驾本身,这套(tào)方(fāng)法论可以认为是为将来的智(zhì)能设备如何和大模型相结合,更(gèng)好的去探(tàn)索物理(lǐ)世界指明了一个方向(xiàng)。
第三件事情,上周的(de)O1,我对(duì)它的理解(jiě),它第(dì)一次证明了语言模型其(qí)实也可以有人脑的慢思考,就是系统2的能力。而我们觉得(dé)系统2的能力它是归纳世(shì)界所必备的(de)一个前提条件,是一个基础的能力。所以,我们一直认为,AGI的演进路线(xiàn)可以分为模拟世界、探索世界、最后归纳世界。而过去几个月的时间我(wǒ)们看到GPT4O、FSD V12和O1分别在这三(sān)个阶段或者这三个(gè)方向 上都(dōu)取得了非常大的突破,而且更重要的(de)是为将来的发展也(yě)指明了一个方向。所以无论是(shì)从数量还是质量上来说,都是可圈可点。
杨植麟:我觉得整体也是属(shǔ)于加速发展的阶(jiē)段,核心可以从两个(gè)维度来看(AI的发展),第一(yī)个维(wéi)度是纵向的维度,也(yě)就是说你的智商是一直在提升的,这个主要现在的反应方式还是你去看文本模型能做到多(duō)好。第二个是横(héng)向的发展。除了文本模型之外,刚才姜总提到(dào)的,也会有各种不同的(de)模态,这些模态会做一个横向的发展,更多的让你这个模(mó)型具备更 多的技(jì)能(néng),能够去完成更多的任务,然后(hòu)同时跟纵向的智商的发展相结合。
在这两个(gè)维度上,我觉得都看到了非常大的进展,比如说在纵(zòng)向(xiàng)的维度上,其实智商是(shì)一直在提(tí)升的,比如(rú)说我们如果去看(kàn)竞赛数学能(néng)力(lì),去年(nián)是完全(quán)不及格,到今年已(yǐ)经能做到(dào)90多分,像代码基本上也是(shì)一样,能够击败很多专业的编程选手(shǒu),包括因此也产生了很多新的应用机会,比如说像现在比较流行的类似curser这样的(de),通过自然(rán)语言直接去(qù)写代(dài)码的这样的软(ruǎn)件也越来越普及,这是技术发展的结果。包(bāo)括我们去(qù)看很多具体的技术指标,现在的(de)语言模(mó)型(xíng)能支持的(de)上下文的长度,我(wǒ)们如果去年这个时间点去看(kàn)的话,大部分的模(mó)型都只能(néng)支持4K-8K的,但是从(cóng)今天去看(kàn)你会发现(xiàn)4K-8K已经是非常低的数了,128K是(shì)一个标配,已经有很多可以支(zhī)持1M甚至10M的长文本的长度 。所以,它这(zhè)个其(qí)实也是后面你的智商(shāng)不断提升的(de)一个很重要的基(jī)础。
包括最近的 很(hěn)多(duō)进展,它不(bù)光只(zhǐ)是说Scaling,Scaling还是会持续。而且很多进展也来自于你的后(hòu)训练(liàn)算法的优化,来自于你数据的优化,这些优化它的周(zhōu)期是会更短的。所以,这个周期更短导致你(nǐ)整体AI发展节奏也会进一步加快,包括我(wǒ)们最近在(zài)数学上看到阶跃星辰姜大昕、月之暗面杨植麟、生数科技朱军,云栖大会激辩“通往AGI的大模型发展之路”的很多进展,其实也是得益于这些技术(shù)的发展。
横向(xiàng)上当然也产生了很(hěn)多(duō)新的突(tū)破,当然Sora可(kě)能是影响力最大的,在这(zhè)里面完成了这个视(shì)频生成。包括最近有特别多新的产品和技术出来,现在(zài)你已经可以通过一个论文直接生成基(jī)本上你(nǐ)看不出来(lái)是真是假的双人的对话(huà)。类似这(zhè)样的不同(tóng)模态之间的转化(huà)、交互和生成,其实会变的越来越成熟。所以,我觉得(dé)整体是在加速的过程中。
朱军:AGI这里面大家最关注的还是大模型,刚才两位也讲了去年包(bāo)括今年大(dà)模型也(yě)发生了很(hěn)多(duō)重要的(de)变化(huà)。整个的进展(zhǎn)我是非常同(tóng)意刚才讲到的(de),在加快。
另外,我想补充一点,大(dà)家在解新的问题,这个速度也在加快了,我们说(shuō)它的Leaning corve在变的更陡。原来(lái)如果你看语言模(mó)型,可能从2018年最(zuì)早去做的,到去年以及(jí)到今(jīn)年,大家走(zǒu)了(le)五六年(nián)的路。但其实从去年开始,上半(bàn)年大家还(hái)是关(guān)注语言模型,下半年在讨论多模态,从多模态理解再到多模态生成。我们再(zài)回过(guò)头看的话,比如说图像或者视频,其实视频最明显,从今年的2月份,当时很多人被震惊(jīng)到了,因为它很多(duō)没有公开(kāi),就说怎么去突破?有很(hěn)多(duō)的讨(tǎo)论。但(dàn)事(shì)实上我们现在看(kàn)到这个行(xíng)业里(lǐ)面(miàn),大概用了半年的时间,已经做到(dào)了可以去用,而且达到了一个很好的一些效果,在时空一致性(xìng)上。所以大概走了半年(nián)的路。
所以(yǐ)这里面加速的一个最核心的(de)原因 ,现在(zài)大家对这种路线的(de)认知和准备上,达(dá)到了比较好的程 度。当然我们(men)还有物理的条件,比如说像云的设施,计算的资源(yuán)的准备(bèi)上,不像ChatGPT当时(shí)出(chū)来的时候,大(dà)家当时更多的(de)是(shì)一(yī)种不知所措,我觉得很多(duō)人可能没准备好去接受这个,所以中间(jiān)去花了很长时(shí)间去学习(xí)、去掌握这个。当我们掌握(wò)了之后(hòu)再发现这个进展的话,再去做新的问题,其实它(tā)的速度是(shì)越来越快的。
当然,这个可能不同(tóng)的能(néng)力它再辐射到实际的用户的角度来说,有一些(xiē)快慢之分,当然也分行业。这个可能在广泛的角度来 说,大家(jiā)可能没感知到(dào)。但是从(cóng)技术来说,其实(shí)这个(gè)进展我感(gǎn)觉是(shì)曲线越来越陡,而(ér)且可能对后边我们要预测未来的话,包括向更高阶(jiē)的AGI发展,我是比较乐观的,可能会看到(dào)比之前更快的速度去实现了。
主持(chí)人:最近OpenAI刚刚出(chū)的O1的新的模型(xíng),也是在专业人群里形成了非常多的影响,现在还在很丰富的讨论。怎么评价O1进展的意义?
姜大昕:确实我看(kàn)到一些非共识,有些人觉得意 义很大,有些(xiē)人觉得也不过(guò)如此(cǐ)。我(wǒ)觉得大家如果(guǒ)去试用O1的(de)话,可能第一印象(xiàng)是它的推理能力(lì)确实非常惊艳,我们自(zì)己试了很多Query,觉得推理能力确实上了一(yī)个很大(dà)的台阶。
然后我们(men)去思考它背(bèi)后(hòu)的意义究竟是什(shén)么,我能想到(dào)的有两点:1.它第一次证明了Large language model,就是(shì)语言(yán)模型,它可以有人(rén)脑的慢思考的能力。它和以前(qián)GPT的范式,或者GPT的训练,它叫(jiào),Predict next Token,它只要这样训练了,就注定了它只有system 1的能(néng)力。而O1是用了(le)一个强化学习的训(xùn)练(liàn)框架(jià),所以带来了系统2的能力。
系统1的体现,它是一个直线性思维,虽然我们看到GPT4有时候可以把一(yī)个(gè)复杂的问题拆解(jiě)成很多步,然后(hòu)分步去解(jiě)决,但它还是直线(xiàn)性(xìng)的。系统1和系统2最大的区别在于,系统2能够去探索不同的路(lù)径(jìng),它能够(gòu)自我去反思、自我去纠(jiū)错,然后不断的试(shì)错,直到找到一个正确的途径,这是系统(tǒng)2的特点(diǎn)。这(zhè)次O1,它是把以前的模仿学习和强化学习结(jié)合(hé)起来了,使得一个(gè)模型同时有了人脑系统1和系统(tǒng)2的能(néng)力。所以我觉得从这(zhè)个角(jiǎo)度来看,它的意义是非常大的。
第二,它带来了一(yī)个Scaling Law的新方向,我理解O1试图回答的一个问题,就是(shì)说RL(强化学习)究竟怎么去泛(fàn)化。因为强化学(xué)习它(tā)不(bù)是第一(yī)个(gè),DeepMind一直(zhí)走的是强化学习的路线,从AlphaGo到AlphaFold到AlphaGeometry,其实它在强化学习上是非常厉害的。但(dàn)以前强(qiáng)化学习的场(chǎng)景都 是会(huì)为特定场景去设计,AlphaGo只能下围棋,AlphaFold只能去预测蛋白质的结构。所以(yǐ)这次O1的出(chū)现,它是在RL强(qiáng)化学习(xí)通(tōng)用性和泛化性上(shàng)了一个大的台阶,而且它scale到(dào)了一个很大的规模,所以我把它(tā)看成scaling带(dài)来新的技术范式,我(wǒ)们(men)不妨称之为RL Scaling。而且我们看到有意思的一点,O1并没有到(dào)很成熟 的阶段,它还是一个开(kāi)端,但(dàn)是这(zhè)个恰恰让人觉得非常的(de)兴奋,这就等于OpenAI跟我们说,我(wǒ)找到了(le)一条上限很高的道路,而且你仔细(xì)去思(sī)考它背后的方法,你会相信这条路(lù)实际上是能走得下去。所以O1从能力上来讲,我觉得它展示了Language model可以有系统2的能力,从技术上来说它带来新的scaling范(fàn)式(shì),所以它的意义还是非(fēi)常大的。
朱军:我的看(kàn)法,它是代表(biǎo)着一个显著(zhù)的质变(biàn)。我们也对AGI大概做了一(yī)些分级(jí),学术界,包括产业界大家有L1-L5的分(fēn)级。其实L1的话相当于聊(liáo)天机器人,就是像ChatGPT等,之前大家(jiā)做了(le)很多对话的。L2叫(jiào)推理者,实际上(shàng)可以做复杂问(wèn)题深(shēn)度思考的推(tuī)理。L3叫(jiào)智 能体,回应吴总讲的“数字世界”走向“物理世(shì)界”,我要去改(gǎi)变的,我要去交互的(de)。L4是创新者,它要去(qù)发现、创造一些新的东西,或者发现一些新的(de)知识。L5是组织(zhī)者,它可以(yǐ)去协 同,或(huò)者某种组织方式(shì)更高(gāo)效来(lái)运转,这(zhè)是大家对于AGI L1-L5的分级,当然每一级也(yě)有narrow和(hé)general的区分,在某些Task上展示出来。比如O1在L2的narrow场(chǎng)景下,在一些特定任务下已经实(shí)现了人类达到很高阶(jiē)的智能水平(píng)。我觉得从(cóng)分级角(jiǎo)度来(lái)看,它确实(shí)代表着整个行业巨大的进(jìn)步。
刚才技术上姜总也讲了,它将过(guò)去强化学习或者其(qí)他一些技术,其实在研究里已经做了很多东西,但实(shí)际上它在大规模基座模型上(shàng)能(néng)够做出(chū)来的效(xiào)果,这还是从工程上,或者(zhě)从实现上 来说对行业很大的触动。当然它也会错发或者(zhě)激发(fā)出来(lái)很多(duō)未来(lái)的探索,或者实际的研发,可能会走向从narrow到general的跃迁。刚才讲到 速度,我相(xiāng)信它会很快,因为大家已(yǐ)经有很多准备了,我也期待(dài)这个领域里更多将L2做得更好,甚至更高阶的能实现。
杨植麟:我觉得它(tā)的意义确(què)实是很大,主要意义在于它提升了AI的上限。AI的上限是说,你现在去提升5%、10%的生产力,还是说10倍的(de)GDP,我觉得这里最重要的问题(tí)就是你能不能通过强化学习进一步scaling,这是(shì)完全提升了(le)AI上限的东西。我们(men)如果看AI历史上七八十年的发展,唯一有效的就是scaling,唯一有(yǒu)效的(de)就是加更多的算力。但在O1提出(chū)之(zhī)前,可能也有很多人在研(yán)究(jiū)强化学习,但都没有一(yī)个(gè)非常确切的答(dá)案,强(qiáng)化(huà)学(xué)习(xí)如果和大语言模 型,或者和training processin这些东西整合在一起,它能否持续提升。比如GPT4这一代模(mó)型的提升,更多是确定性的提升,我在一样范式下把规(guī)模变得更大,它肯定(dìng)是确定(dìng)性(xìng)的提升。但是我觉得O1的提升(shēng)并不是一个完全确(què)定性的,这样的提升。
所以在之前大家可能会担心现在互联网上大部(bù)分优质数据都已经(jīng)被使用(yòng)完了,然(rán)后你可能继续使用这个数据也没有更多(duō)数(shù)据可以挖掘,所以你原来的范式可能会遇(yù)到问题。但AI有效了,你又需要进一步scaling,那你这个scaling从(cóng)哪里来,我觉得(dé)很大程(chéng)度(dù)上解决了这个问题(tí),或者说至少证明了它(tā)初(chū)步可行。初步可行的情况下,可能我(wǒ)们会(huì)有越来越多人投入去做这个事情,最终你要做(zuò)到(dào)10倍GDP的最终效果,它完全有可能,我觉得是一个很重要的开(kāi)端。
我觉得(dé)对(duì)很(hěn)多产业格局上,或者对于创业公司新机会来说也会发生一(yī)些变化(huà)。比如我觉得这里很关(guān)键的(de)一个点,你 的训练和推理算(suàn)力占比是会发生很大的变(biàn)化,这个变化我不是说训练的算(suàn)力会下降,训练的算力还(hái)会持续(xù)提升。与此同时,推理(lǐ)的算(suàn)力提升会更快(kuài),那这个比例的变化本质(zhì)上会产生很多(duō)新的机会,可能(néng)这里很多新的创业公司的(de)机会。一方面,如果(guǒ)你达到一定的算力门槛,它(tā)可以(yǐ)在这里(lǐ)做很多算法的基础创新,那(nà)你可以在基础的模型上甚至(zhì)取得突破,所以我觉(jué)得这个很重要。
对于算力相对小一点的公司,它也可以(yǐ)通(tōng)过后训练的方式(shì),在一(yī)些领(lǐng)域上做到一些效果,这(zhè)里(lǐ)也会产生更多的产品和技(jì)术机会,所(suǒ)以(yǐ)我觉(jué)得整体也是打开了创业相关的想象(xiàng)空间。
主持人:这一波AI新 的(de)变化(huà),接(jiē)下来(lái)会对AI相关的产品带来什么样的连(lián)锁反应,这个变化如何发(fā)生?
杨植麟:这是很好的问题(tí),我们(men)现在还是处于产业发展的早(zǎo)期。产业发展(zhǎn)的早期有一个特点,还是(shì)技术驱动产品会更多,所以很多时(shí)候(hòu)你的(de)产品会去看当前的技术是(shì)怎么发展,然后把它最大化的价值提取出来,所(suǒ)以这个问题首先(xiān)非常好,可(kě)能我们(men)根据 这个新的技术进展,再返过来推一下现在(zài)产品(pǐn)应该做什么变化。
现在的技术发(fā)展有几个点:
一个,我觉(jué)得这里面会(huì)有很多探索(suǒ)新的PMF(product market fit)的机会。我觉得PMF指的是(shì)两(liǎng)个东西的平衡:一方(fāng)面 是由于你需要做这(zhè)种(zhǒng)系统2的思考,导致你的延时增加。对用户来说(shuō),延时增加(jiā)是一个负向(xiàng)的体验,因为所有用户都(dōu)希(xī)望(wàng)我尽快能拿到结果;第二个点,它确实能提供更好的输出,能拿到更好的结果,甚至能完成一些(xiē)跟更复杂的任务。等于说新的PMF产(chǎn)生的过程或者探索的过程,其实是要在在 延时(shí)增长的用户体(tǐ)验下降和最后结果产生质量更高的用(yòng)户(hù)价(jià)值的上升之间找到一个平衡点。所以你要让这个增量的价值是大于体验的损失,我觉(jué)得这(zhè)个很重要。所以在这(zhè)里面更高价值(zhí)的场(chǎng)景,特 别是生产力的(de)场景,我觉得会率(lǜ)先有一些东西出(chū)来 。因为如果你是一个娱乐场景,大(dà)概率你可能很难忍受这种延时上的增加。所以(yǐ),我觉得这是比较重要的一点
产品形(xíng)态上,我觉得也会发生一些变化。因为你引入这种思考的范式,所以现在同步及时的类似聊天的产品形态一定会发生变化。因为以后的(de)AI,可能它不(bù)光是现在思考个20秒(miǎo)、40秒,它(tā)已经可能要思考或者调用各种工具,它可能执行分钟级别、小(xiǎo)时级别甚至天级别的任务,所以你的产品形态上可能(néng)会更接近一个人,它更接近“助理”的概念,帮你完成异步的(de)任务。这里面的产品形态设计,我觉得可能也会发生很大的变(biàn)化。所以这里面,我觉得新的想(xiǎng)象空间蛮大的。
朱军:我觉得(dé)大模型或者(zhě)大规模(mó)预训练的技术代表着整个范式的变(biàn)化,前面也(yě)聊到(dào)很多,不光是语言,到多模态,到具身、空间智能,中间还是想我怎么去让智能体能够有交互,能够在这个(gè)过程中来学习。从智能的角度来看,包括从AGI发展上(shàng),它是一个必然,因为决策(cè)、交(jiāo)互实际上是我 们说的智能里面非常核(hé)心的能力的体现(xiàn)。我们每(měi)时每(měi)刻其实都在做决策,我们面 对的是一个未(wèi)知的开放环境,所以对(duì)于智能来(lái)说,它的发展 路径上,在整个规划里面大家也是朝着这个方向走。
现在所有这些进(jìn)展,包括刚刚讨论很多的(de)O1,包(bāo)括做视频生成,或者3D,这些东西大家最后要指向的有(yǒu)两个方向:
一个(gè)是给消费者看到的这些数字内(nèi)容,就是说看上去很好看、很自然,能够讲故(gù)事,能够让大家参与讲故事、能够交互。这肯定(dìng)是一(yī)个很重要的方(fāng)向,在数字内容上。
另外一个方向,指向(xiàng)实体、指向物理世界。
现在可能最好的一个结(jié)合点就是和机器人来结合在一(yī)起。其实现在(zài)已经有好多例子在展示出来,我们也看到很(hěn)好的(de)一些(xiē)进(jìn)展,比(bǐ)如(rú)用了预 训(xùn)练(liàn)的范(fàn)式,如何让机器人 的能力具有通用性;比(bǐ)如我们(men)自己(jǐ)实验室做多的例子,像四足机器人,过去大(dà)家在不同场地上,你要让它跑起来都需要用很多的人工调(diào)参。但(dàn)现在你在一个仿真环(huán)境里面,或者用一些AI的方式来(lái)生成一些合成数据,让它在里面大(dà)规模地训练,训练出来的策略可(kě)以灌到机器人上,它相当(dāng)于换了一副大脑,可以让它的四肢更好地协同起来,同样(yàng)一套策略可以(yǐ)做(zuò)各种场(chǎng)地的适应。其实这还是一个初步(bù)的例子,现在大家也在关注更复杂的控制决 策(cè),就像(xiàng)空间智能、具身智能。
就像刚才讲到智能体是AGI的L3,所(suǒ)以现在用到L1、L2的进展之后(hòu),后(hòu)面肯定会(huì)提(tí)升到L3,让机器人更好(hǎo)地做它的推理规划,然后(hòu)更好(hǎo)更高效地和环境做交互,更好地完成我们的复杂任务。因(yīn)为现在很多时候任务相对来说分散,给(gěi)它定义成一个(gè)简化的(de)。未来,我们很快可以看到它可以接受复杂的指令、完成复杂的任务,通过它内嵌的思(sī)维链或者(zhě)过程(chéng)的(de)学习方(fāng)式,能够完成复杂(zá)任务。所以到那个时候,智能的能力又有(yǒu)一个(gè)很巨大的提升(shēng)。
主持人:虽(suī)然意(yì)料(liào)未来都很难,至少心里会有一个(gè)期待,比如在下一个(gè)18个月(yuè)里,我(wǒ)们希望看(kàn)到什么样的进展,在(zài)AGI的领域(yù)里?
朱军(jūn):因为(wèi)现在(zài)整个是一(yī)个(gè)加速,其实很多时候我们预测通常会过于保守。如(rú)果回到你的问题,我预想未(wèi)来18个月(yuè)可能比较(jiào)令人兴奋的一(yī)个进展(zhǎn),我希望看到AGI的L3已经基本上实现。至少在智(zhì)能体,比如我们说(shuō)的世界模型的创建生成(chéng)、虚(xū)实融(róng)合,至少在一些(xiē)特定场景下的决(jué)策能力的巨大的提升。其实它会利用我们(men)今天讲到的推理、感(gǎn)知等等。
因为我前一段时间领了(le)一个任(rèn)务,就是对(duì)L4做(zuò)专门的分析,就是到底我们缺(quē)什么?做了L4的。其实最后(hòu)调研(yán)或者(zhě)是分析下(xià)来,你会发现如果我(wǒ)们要做科学发(fā)现或者做创新,它需要的那些能(néng)力(lì),可能目(mù)前是散落在(zài)各个角(jiǎo)落里面,当然现在 可(kě)能还缺一个系统怎么把这些东西集成在(zài)一起(qǐ),给(gěi)它做work。所 以我觉得如果(guǒ)更激进一点,我甚至觉得未来18个月可能在(zài)L4上也会有显著的进展。当然这里面(miàn)我讲的是严肃的科学发现,其实L4还有一些创意的表达上(shàng),目前我们在某种意义(yì)上已经达到了,比如说艺术创造、图生视频,一定程度上它已经帮大家放大你的想(xiǎng)象,或者让你(nǐ)的(de)想(xiǎng)象(xiàng)可以具象化(huà)。所以,我对整(zhěng)个(gè)于是还是比较(jiào)乐观的,我(wǒ)觉得至少L3或者未来L4有一些(xiē)苗子了。
到今(jīn)年年底,希(xī)望(wàng)将我们本来做的视频模型能够(gòu)以更加(jiā)高效、更可控的方式提供给大家(jiā)。
我解释 一下高效和可控。可控,比如你想表(biǎo)达一个(gè)故事,不是简单地将一段(duàn)话或者一个图片给它动起来,我们是(shì)希望你可以连阶跃星辰姜大昕、月之暗面杨植麟、生数科技朱军,云栖大会激辩“通往AGI的大模型发展之路”续地讲,而(ér)且它不光是人的一致性(xìng),还(hái)包括物(wù)体等各种主(zhǔ)题的一致性,还包括交(jiāo)互性;高效,它一方面解决对算力(lì)成本(běn)的考量(liàng),因为你如果想要服务很多人,让大家用的话,首先你成本(běn)要(yào)降下来,不(bù)然这个本身就是烧钱,一直赔钱。另外一个更(gèng)重要的(de),还是从体验上。就使(shǐ)用者 来说,因为他想表达自己的(de)创意(yì),他可能需要多次和系统来(lái)交(jiāo)互,一方面是(shì)验证(zhèng),另外(wài)一 方面是(shì)启发,所以这个过程也需要你的模型系统能够比较高效,比如说终极目标达到(dào)实时,能够让大家快速尝试。等到这(zhè)个阶段,我相信大家(jiā)的用户体验(yàn),包括用户量都会有一个(gè)巨大的提升,这是我们今(jīn)年想重(zhòng)点突破的。当然长远的话,可(kě)能明年(nián)18个月会走(zǒu)向实体的虚实(shí)融合的场(chǎng)景了。
杨植鳞:我觉 得 接(jiē)下来最重要的,可(kě)能是开放(fàng)性的强化学习,比如(rú)说你在产品上(shàng)跟用户交互,在(zài)一个真实的环境里面完(wán)成任务,然后自己去进化(huà)。当然,我觉得O1一定程度上说(shuō)明这个方向有比之前(qián)更强的确定性,我觉得这个会是一(yī)个重要的里程碑,也是AGI路上(shàng)现(xiàn)在仅(jǐn)甚(shèn)唯(wéi)一的一个重(zhòng)要问题了。所(suǒ)以,我觉得这个会很关键。
张鹏:对,18个月已经是很长了,如果看看看过去18个月走的路。你未来3个(gè)月,有什么可以透露的吗?
杨植鳞:我们还是希望能够在产品和技术上持续地创新,至少可能在(zài)一两个(gè)重要领域能(néng)够做到世界(jiè)最好,但是有新的进展会(huì)尽(jǐn)快(kuài)跟大家分(fēn)享。
姜大昕:第一,我也很期待强化学习能够进一步泛化。另外一个方向其(qí)实我也很期待,应该说期待了很久就是在视觉领域的理解和生成一体化的(de)事(shì)情。因为在文字领(lǐng)域,GPT已经做到了理解生成(chéng)一体(tǐ)化,但遗憾的是在视觉领域,这个问题当然不是遗憾,它(tā)非(fēi)常难。所(suǒ)以在目前为止,我们看到的视觉的理解和生成,这两个模型是分开的。即使像刚才说的多模融合,如果大家仔细看GPT4,它其他模态都解决了,它唯独不能生成视频,所以(yǐ)这是一个(gè)悬而未决的事情。
它为什么(me)很重要呢?如果我们解决了视频理解(jiě)生成一体化,我们就可以彻底建(jiàn)立一个多模的世(shì)界模型,有一个多模(mó)的世界模型以(yǐ)后,可以帮助我们真正产生非常长的视频,也就是说解决Sora(音译)目前的技术缺陷。还有一个,它(tā)可(kě)以和(hé)具(jù)身智能相结合,它可以作为机器人(rén)的大脑去帮助智能体更好地探索物理(lǐ)世界 ,所(suǒ)以 我也是非常期待的。
张鹏(péng):你(nǐ)未来年(nián)底之前,有什么我们值(zhí)得期待的你的进展?
姜大昕:我也是期待(dài)一(yī)方面模型和(hé)技术的进步,另外一方(fāng)面产品(pǐn)能带给用户更多更好的体验,其实阶跃有一(yī)款(kuǎn)产品叫“跃问”,在上面(miàn),用户可(kě)以体验我们最(zuì)新的万亿(yì)参数的(de)模型(xíng),它不光是理科很(hěn)强,而且它的(de)文学创作能力也很强,经常给大家带来一些惊喜。同(tóng)时,跃问上还(hái)有一个新的功能叫“拍照问”,我 们看到用户经常拍张(zhāng)照片去问食物的卡路里,去问宠物的心(xīn)情(qíng),问一个文物的前世今生,包括Mata眼镜的发布,还有Apple Intelligence,它今年(nián)都突(tū)出了视觉交互的功能。所以我们在跃问上也有体现,而且我们会(huì)努力一步步把这个功(gōng)能做(zuò)得越来越(yuè)好。
未经允许不得转载:战力电影网-最新电视剧在线观看-高清电影-全网热播动漫动画片 阶跃星辰姜大昕、月之暗面杨植麟、生数科技朱军,云栖大会激辩“通往AGI的大模型发展之路”
最新评论
非常不错
测试评论
是吗
真的吗
哇,还是漂亮呢,如果这留言板做的再文艺一些就好了
感觉真的不错啊
妹子好漂亮。。。。。。
呵呵,可以好好意淫了