国产大模型公司深度求索(DeepSeek)发布的最新AI(人工智能)大模型在海外引起开发者和投资者的热议。
1月20日,量化巨头幻方量化旗下大模型公司DeepSeek正式发布推理大模型DeepSeek-R1。作为一款开源模型,R1在数学、代码、自然语言推理等任务上的性能能够比肩OpenAI o1模型正式版,并采用MIT许可协议,支持免费商用、任意修改和衍生开发等。目前,在国外大模型排名榜Chatbot Arena上,DeepSeek-R1的基准测试排名已经升至全类别大模型第三,与OpenAI的ChatGPT-4o最新版并列,并在风格控制类模型(StyleCtrl)分类中与OpenAI的o1模型并列第一。
更令市场惊讶的是,据DeepSeek介绍,R1的预训练费用只有557.6万美元,在2048块英伟达H800 GPU(针对中国市场的低配版GPU)集群上运行55天完成,仅是OpenAI GPT-4o模型训练成本的不到十分之一。(澎湃新闻记者 胡含嫣)