DeepSeek R1第一次让我小失望了

fjmyhfvclm2025-02-21  9

这两天,AI圈最火爆的新闻莫过于马斯克亲自站台宣传的Grok3。这位科技狂人将Grok3吹上了天,又是20万张顶级GPU,又是史诗级训练,让人不禁好奇,这“含着金汤匙”出生的AI,究竟能有多神?

这20万卡具体是:

初始阶段使用了10万张英伟达H100 GPU,训练时间为122天。

后来扩展到20万张GPU,其中包括:

  • 原有的10万张H100
  • 新增5万张H100
  • 新增5万张H200
  • 扩展后又训练了92天

总的训练时间达到214天,使用了全球最大的AI训练集群Colossus。这个训练规模被马斯克称为"前所未有的,远超过前代Grok 2使用的1.5万张GPU。

App和网页端一上线就迫不及待地体验了一番,效率和效果确实让人眼前一亮,不得不承认,AI世界每天都在刷新惊喜,而Grok无疑是最新加入的“王炸”选手。

DeepSearch速度质量都不输于Perplexity

心痒难耐地充值了5美元,就等着API快点到碗里来。但在API排队期间,我的注意力又被另一个“新晋网红”吸引了——腾讯的ima app。 尤其想试试 “知识库+DeepSeek” 究竟能碰撞出什么火花。

说干就干,我立刻将小宇宙App里“屠龙之术”的主持人庄明浩,邀请嘉宾Monica的张涛老师,东不压桥研究院的张鹏老师,律人行主播Lily聊的一期播客:“Vol.51 那些关于DeepSeek的谣言与误解。”下载下来,转成pdf文本,一股脑儿投喂给ima,然后问一个总结性的问题:

请根据知识库中的信息,总结所有 deepseek 能成功、与众不同、让大家大为惊异的地方,一定要列出来所有的特点。

然而,ima在调用DeepSeek R1后,足足思考了35秒(不算长),给出的答案竟然是 “文中并未提及关于deepseek的技术特点、功能优势或创新点”。 这结果让我瞬间懵了,难道是embedding环节出了问题?但再试着问一些查找类的简单问题,ima却又能对答如流。 免费固然香,但这 “首选知识库” 的地位,恐怕要重新掂量掂量了。

略感失望之余,我转战Cherry Studio,再次对DeepSeek R1发起测试。 这次回答基本算得上正确,但细究之下,却发现它漏掉了一个我特别想让DeepSeek “高亮” 的关键信息,那是播客中张涛老师强调的DeepSeek的破圈之处:

那么DeepSeek除了本身的这个技术很厉害,并且开源以外,我觉得他破圈还有一个非常重要的一个点,就在于他在全世界范围之内第一次提供了一个既有reasoning model,又可以通过搜索获取现实知识不断的结合反思的这样子的一个一个产品。你要记得这是一个产品啊,这不是一个模型。

为了验证是否是DeepSeek本身能力不足,我决定请出我心中的 “优等生” Claude 来做对比测试。 结果证明,Claude依然稳定可靠,不仅精准地抓住了张涛老师提到的关键点,还在总结的深度和广度上都更胜一筹, Claude的总结如下:

我将Claude的总结列在下面,因为这个总结也是对DeepSeek当下成功原因比较全面的总结了:

根据对话内容,以下是deepseek成功和与众不同的关键特点:

技术创新方面:

  1. 在V3版本就实现了重要技术突破,使用工程和算法结合的创新方法,在算力受限情况下达到了GPT-4和Claude 3.5级别的基础模型能力
  2. 首创将推理模型(reasoning model)和搜索(search)功能结合,提供了全新的用户体验
  3. 创新性地解决了S800芯片内存带宽不足的问题,通过特殊的工程优化方法提升性能
  4. 在资源受限条件下实现了高性能,展示了极强的工程创新能力

商业模式方面:

  1. 完全开源(MIT协议),打破了之前闭源模型的垄断格局
  2. 母公司换方资金实力强,可以不急于商业化,专注技术突破
  3. 没有外部投资人约束,可以更专注于技术创新

影响力方面:

  1. 在短短十几天内实现爆火,用户量超过了其他投入巨资的产品
  2. 获得了包括之前对中国AI持怀疑态度的国际意见领袖的认可
  3. 打破了"只有投入huge算力才能做好大模型"的传统认知
  4. 引发了全球AI产业的深度讨论和反思

独特优势:

  1. 作为中国团队,在当前地缘政治背景下反而更适合做纯技术创新
  2. 技术实力获得全球认可,改变了此前国际社会对中国AI的认知
  3. 展示了不同于主流商业路线的技术理想主义道路的可行性

这次成功引发了对AI发展路径、商业模式、技术创新等多个层面的深度反思和讨论,具有重要的里程碑意义。

写在最后。

一番对比测试下来,DeepSeek R1 的 “推理能力” 和 “文字质量” 依然可圈可点,如果让它发挥增加故事性,也称得上足够惊艳。但要论 “总结归纳” 技能,至少从这次测试来看,它还有明显的提升空间。 当然,这仅仅是我让ima以及DeepSeek与本地知识库搭档的 “初体验”, 或许在未来的迭代中,ima和DeepSeek会给我们带来更大的惊喜。 狂人马斯克已加入厮杀,我们也该加油了!无论如何,AI的进化速度,今年还会继续超出我们的想象,不是吗?

转载请注明原文地址:https://www.gamev918.cn/tech/1647992.html