【摘要】存储墙、能耗墙、编译墙,是AI芯片领域长期面临的三座大山。在缺乏足够先进制程的情况下,国产AI芯片的非GPU路线尤为重要。
ASIC需求先行,但却面临着专用架构难以适配算法需求的飞速迭代的巨大挑战,燧原当前便因架构调整上的困难导致研发进度并不迅速。
存算路线基于SRAM、DRAM、RRAM 等不同存储介质,使存储单元兼具计算功能,大幅削减数据搬运量,降低延迟和功耗。苹芯科技在端侧布局,于2024年成功点亮其PIMCHIP-S300多模态智能感知芯片。
RISC-V路线完全开源,但场景缺失、生态难用,使得希姆计算等公司面临着找到下游需求、完善生态提升兼容的考验。
越来越多供应链厂商的配合,将很快提到前所未有的高度。
以下是正文:
美国的全球“AI芯片禁令”越来越耸人听闻,到了让英伟达都反对的地步。
但服务器、端侧AI芯片的下游需求却并未因此而消退,一众新旧势力都盯上了此时的关键机会。
除了传统英伟达式的暴力攻坚,ASIC、存算一体、RISC-V 等非 GPU 路线的创新方向,也正为国产芯片开辟出多条具备潜力的突围之路。
01
ASIC 路线:以燧原科技为例
与通用芯片不同,ASIC从设计之初便聚焦于某一狭窄领域的应用,将所有资源与设计精力都倾注于优化该特定任务的执行效率。
而在缺芯潮之后,不少AI芯片创业公司也选择在ASIC上攻坚,燧原科技便是其中代表。
性能上,ASIC 能够甩掉通用芯片为兼顾多种任务而背负的冗余包袱,针对对应AI算法进行优化,提升计算单元、存储结构等硬件组件与特定任务的契合度。
功耗上,ASIC避免了通用芯片在执行不同任务时因频繁切换模式、启动冗余模块而产生的额外功耗,实现了每瓦特电力消耗下更高的计算产出,这对于数据中心等AI芯片大规模部署的场景来说无疑具备极大价值。
可靠性上,相较于复杂的通用芯片,ASIC内部潜在的故障点大幅减少,且在特定应用环境下可以针对温度、电磁干扰等因素进行专门的防护设计优化,确保芯片在长时间、高强度的工作负载下稳定运行。
以上一切优势,均源于ASIC的本质特点——需求先行。
不过,颇有意思的是,需求先行实际是一把双刃剑,也很有可能成为ASIC路线在商业化过程中的致命伤。
在算法进步速度和路线方向改变很大的当今时代,从发现客户需求到实际量产芯片产品这1.5-2年的时间差,这意味着,专有化芯片产品极有可能在刚刚完成时才发现,其实际要支持的算法已然被淘汰。
而这正是ASIC需要回答的灵魂之问——如何在尚且没有产品证明自身技术实力的时候深度绑定大客户需求,同时做好工具链等生态适配。
举例而言,AMD创业班底出身的燧原,手握强工程能力,但据知情人士透露,也由于过早固化了AI算法和框架,导致此前设定的一些过于专用的路线与当下算法匹配不能跟上演进速度。
基于此,选择ASIC路线是一条风险较大的道路,留给产品定义和战略预判的容错率并不高。
02
存算路线:以苹芯科技为例
传统架构中,数据需在计算单元与存储单元之间频繁奔波,大量时间与能耗耗费在数据搬运路上,制约芯片性能提升。
存算一体技术则反其道而行之,基于 SRAM、DRAM、RRAM 等不同存储介质,通过设计存储阵列与计算逻辑,使存储单元兼具计算功能,大幅削减数据搬运量,降低延迟。
性能上,存算一体芯片避免了传统架构因数据传输带宽受限导致的性能瓶颈,优势在于以更快速度处理 AI 任务,实时响应能力相对出众。
能效上,由于数据搬运大幅减少,功耗随之骤降,相同功耗下可完成更多计算任务,能效比提升数倍甚至数十倍,这对于能耗敏感的移动设备等端侧场景来说价值匪浅。
无论是在端侧还是在云侧,存算一体路线都颇受重视。
亿铸科技、苹芯科技是国产化AI芯片存算一体路线的代表,其中苹芯科技成立于2021年,聚焦于端侧设备;亿铸科技则是成立于2020年,聚焦于云侧数据中心场景。
据悉,苹芯的PIMCHIP-N300存算一体 NPU已完成开发并完成客户交付,专为机器学习与 AI 推理任务量身打造,采用创新软硬融合架构,单核提供0.5TOPS算力,看似不高却能精准满足众多端侧场景需求,系统功耗低至25-100mW,典型静态功耗仅10μW,且支持12大类超100种算子,适配各类复杂模型。
PIMCHIP-S300多模态智能感知芯片则是基于SRAM存算一体技术,单核能效比高达27TOPS/W,特定计算节能 90%,大幅延长设备续航,降低部署成本,目前已进入回片测试阶段,成功点亮功能并完成相关方案搭建。
此外,苹芯团队也在推进大模型推理加速专用芯片研发工作,以存算一体技术为核心打造基于成熟制程的AI大模型推理加速芯片与系统,旨在打造成本与性能远超当前主流产品的大模型推理方案。
在市场经营策略上,苹芯科技聚焦智能穿戴、安防、智能家居等端侧细分领域,与华为、小米、海康威视等头部企业紧密合作,快速嵌入客户产品生态,专为其开发存算一体解决方案。
后续要适应AI算法、面向大模型部署,存算一体路线需要关注的重心在于解决编译和生态兼容的难题。
03
RISC-V路线:以希姆计算为例
业界普遍认为,走RISC-V路线攻克AI芯片的各个国家参与者,都站在同一起跑线上。
RISC-V因其具有的可扩展性、可编程性、超大规模等优势与AI大模型高度适配,而由于其完全开源的特性,成了当前最有希望实现完全自主可控的路线之一。
希姆计算是国内最早基于RISC-V做数据中心芯片设计的企业,成立于2019年4月,公司主要专注于研发以RISC-V指令集架构为基础的AI芯片DSA处理器,同时叠加大算力NPU,主攻数据中心、服务器等场景的云端大卡。
2024年底,搭载着希姆计算基于RISC-V开源指令集完全自主研发的大算力人工智能ASIC芯片的千卡集群正式点亮,也意味着国内RISC-V+AI技术正在逐渐成熟。
但从数年的发展路径来看,希姆计算从业内唯一一家在头部互联网公司进行业务部署的云端AI推理芯片公司,发展到如今主要依赖智算中心来撑起营收,宏图似乎并没有业内预想的那么大。
除了公司内部经营的弯弯绕绕,希姆计算面临着所有RISC-V企业都要面临的致命问题——场景缺失。
由于RISC-V芯片完全开源,不需要采购外供架构和IP,许多需要大规模用到RISC-V AI芯片的大厂完全有能力进行自主开发,而不需要向芯片设计公司求助。
基于此,在服务器和数据中心场景,RISC-V成了一个看似火热但却缺乏足够生存空间的生意。
04
尾声
在缺乏足够的先进制程节点的情况下,国产AI芯片的非GPU路线尤为重要。
当然,一个首要的问题是:实际运用中,非GPU路线的国产AI芯片很难兼容当前通用的CUDA架构。由于生态特殊,非GPU路线的国产AI芯片在实际使用时还需要做大量高难度的兼容和适配工作,在生态打造上还有一定差距。
基于此,行业需要从算法、框架、编译器、工具链、指令集、架构、电路等跨层次协同设计,才能建设起自家生态,翻越在存储、能耗、编译三座大山,从而更好实现国产化替代。