昨天(18日)中午在DeepSeek R1发布近一月后,马斯克宣布旗下xAI公司研发了新一代AI模型Grok 3,自称最聪明、“又好又贵”,此举再次引发世人对AI大模型和DeepSeek关注。1月20日,国产推理大模型DeepSeek系列实现现象级创新,以开源方式展现了其平民化的面向,不仅提振了国人对科技自主自强的民族自信心,也大大“脑补”了全民的大模型知识和应用技能,以倍速提升着科学素养。在如潮的评价中难免有些模糊和夸张的观点,为此,文汇报记者李念采访了两位业界专家——经济学家、横琴数链数字金融研究院学术与技术委员会主席朱嘉明,北京智源人工智能研究院战略研究中心负责人倪贤豪,以廓清一些认识误区。
误区1:低成本是成功标准之一?为引领大模型潮流,仍需提升成本投入
“从经济上来看,DeepSeek的意义之一,在于超越了人工智能大模型早期开发的沉没成本,但是,成本的降低并没有绝对普遍意义。”作为1980年代已在业界享有盛誉的经济学者,新世纪后深耕元宇宙、AI大模型前沿发展的朱嘉明明确指出,成本优势并不意味着长期可持续、可重复。DeepSeek下一步依然处在竞争中,它需要提升基础设施,实现高性能芯片的迭代。“如要引领AI大模型的潮流,成本上升是不可避免的。”朱嘉明此前撰文认为,DeepSeek V3、R1的贡献有三:相对较低的基础设施硬件成本、算法复用成熟度提升、数据成本有效控制。
*在人工智能“涌现”之前,从0到1的创新往往是不计成本的
“降低成本、形成成本优势是推动经济增长的重要手段,但是不要把成本降低的目标绝对化。”朱嘉明指出很多人认知中容易犯的模糊点——降低成本的目的是在长期竞争中实现持续创新。他继而分析,人工智能改变了传统工业产品的成本结构。后者有明确的狭义成本、广义成本以及边际成本等概念,而人工智能大模型产品的成本结构、边际概念、折旧摊销等都不相同,其迭代速度甚至打破了摩尔定律,“人工智能产品生命周期以年,以月、周为单位为计算,非常短暂。”
在这一轮人工智能“涌现”之前,从0到1的创新往往是不计成本的。“未来,人工智能发展也很难把成本当作有限尺度”,处于不同阶段的人工智能的成本并不相同,需要具体分析。
对此,来自业界知名大模型研究机构的倪贤豪分析,以GPT 4、GPT 4o、Claude 3及3.5系列为代表的预训练模型,其在过去及未来的高成本投入的价值,并不为此次OpenAI o1/o3、Deepseek R1系列为代表的推理模型的现阶段成本投入即可换来较高能力提升的现象所抹消或减弱。
正如朱嘉明所提及,一方面在大模型涌现前,从0到1的创新在投入上往往不计成本。另一方面,倪贤豪指出,预训练模型已处于Scaling Law的后半段,亦即进入所谓边际效应递减作用较为凸显的阶段。与尚处于后训练/推理Scaling Law早期的推理模型做成本比较,并不恰当。
*推理模型的性能天花板加速到来,对于算力的要求将持续提升
考虑到成本低、性能提升大,必将带来海量玩家的涌入。仅在Deepseek R1发布至今不到一月内,我们便已看到比如斯坦福大学李飞飞所谓的50美元复现模型s1、Grok 3 Reasoning Beta、OpenAI o3-mini等多个推理模型。从目前各家国内外厂商进展及披露来看,未来数月内我们将看到更多推理模型发布。倪贤豪梳理,与此同时,我们仅统计2024年11月以来的主要模型更新,推理模型便达到十多个,Deepseek R1是其中效果最突出的代表。
基于以上说明,成本低、性能提升高、玩家多,这势必带来推理模型的性能天花板快速到来。倪贤豪认为,参考预训练Scaling Law近年来的边际效应递减走势,推理模型的性能天花板或在1年左右便将到来。与之相应地,推理模型的成本也将随着这一走势不断拉升。
误区2:预训练已进入终结版?从Grok 3看Scaling Law仍在持续生效
GPT-4以来,尽管下一代预训练基础模型难产。但从目前各厂商披露信息来看, Grok 3等下一代基础模型目前已训练完成或是在训练中。xAI、Meta等海外头部厂商在十万卡以上集群的搭建也正持续进行。
倪贤豪分析,昨日马斯克发布的Grok 3大模型,在规模达10万卡的H100集群完成训练,后期在扩容到20万卡后,对Grok 3可做继续优化升级。从官方发布的测评结果来看,仅就基础模型而言,Grok 3在数学、科学问答、编程等能力维度上,较Gemini-2 Pro、Deepseek V3、Claude 3.5 Sonnet、GPT-4o平均仍高出25%以上。
尽管相较推理模型的能力提升而言,预训练模型的性价比较低,但Grok 3证明了预训练Scaling Law仍在生效。Scaling law最初在NLP领域被观察到,并应用于语言模型。随着模型大小的增加,训练损失降低,模型生成性能提高,捕捉全局信息的能力增强。通俗来讲,就是预训练基数越大,性能越高。朱嘉明指出,国内观察者对此的观察,要避免“说话太满”的倾向。
“基于预训练基础模型,再使用强化学习增加推理能力”的推理模型新范式,对于预训练基础模型依旧有着高要求。倪贤豪进一步认为,李飞飞团队基于Qwen2.5做数据蒸馏,实现性能较大提升的s1,正是说明了预训练基础模型在新范式中的重要性。
同时,在不久的将来,推理模型性能天花板到来之际,仍在生效的预训练Scaling Law带来的能力提升,对于全局模型性能提升来说,仍有着不小的价值。
误区3:蒸馏技术有奇效?HLE测试持续提高,年底会突破50%基线
本轮人工智能发展以2017年6月12日Transformer架构论文发表为里程碑,到2025年1月20日,DeepSeek R1发布以及近期李飞飞团队发布s1模型,实现蒸馏谷歌Gemini 2.0 Flash Thinking模型,技术迭代极为迅速。
“人工智能向尖端发展,就要不断提高测试人工智能的标准。”朱嘉明在几天前接受《证券时报》采访时提出。HLE(Humanity's Last Exam,即人类最后测试)标准集整理了全球50个国家和地区、500多个机构设计的3000个问题,涵盖知识储备、逻辑推理、跨域迁移等核心能力评估。朱嘉明预测,2025年年底,大模型的HLE评估体系的综合表现很有可能突破50%基准线,目前仅在20%左右。可以肯定,HLE绝非测试人工智能大模型的最后标准集。
误区4:中美差距缩小至数个月?在具体语境中谨慎评价
对于评论中认为这次DeepSeek的问世,至少将中美AI大模型领域的差距从两三年缩小到几个月的观点,倪贤豪认为,对中美AI大模型差距的年限判断还是应该更为谨慎。
目前Deepseek R1更多是通过大规模强化学习及多阶段后训练,实现模型推理能力的提升,逼近OpenAI o1的能力水平。在此基础上,模型高度开源和成本定价策略,使得Deepseek R1在全球范围内获得广泛声誉。
但值得一提的是,目前Deepseek R1的能力水平只是逼近了OpenAI o1,仍较OpenAI o3有距离,近日发布的Grok 3 Reasoning Beta也在其之上。在推理模型逼近算法优化极限,开始“卷”算力规模之前,“我们仍不可轻易判断中美AI差距在多长时间。”
误区5:商业化落地更重要?双途并进:尖端突破,低成本普惠
对于人工智能的发展方向,朱嘉明认为要“顶天立地”,兼顾两条路线:一条路线是支持尖端突破,扩张前沿,探索未知领域,这需要高成本投入;另一条路线则是推动低成本和商业化落地,惠及民众。
当然,前者路线具有相当挑战性。倪贤豪认为,无论是仍在生效的预训练Scaling Law,还是处于高速增长的后训练/推理Scaling Law,都在当前或是未来对算力规模有更高要求。因此,考虑到模型“涌现”的持续追求,在算力、数据、算法创新上的高成本投入是必不可少的。至于推理优化带来的持续成本降低,对于AI应用迎来真正的爆发十分关键。“如何更好地在推理优化技术中实现迭代革新,对于实现大模型的低成本普惠至关重要,这也是我们在2025年会看到的趋势之一。”
朱嘉明曾多次表示,人工智能能超越所有传统工具。这一次的现象级创新,再次佐证了这一点。他分析,当前最先进的显微镜能看到最小单位到“埃”的微小物体,约为头发半径的百万分之一,最先进的天文望远镜能观测到130亿光年以外。“AI超越最先进的电子显微镜和天文望远镜,把无法触及的宏观、微观物理世界都加以模拟并展现在人们眼前。”因此这种尖端突破是必不可少的。他极为关注李飞飞团队正在致力攻克的“空间智能”,对多维度空间问题的探索是当前AI重要的方向,比如大于四维的空间如何存在、如何表现,以及如何展现量子世界。