2025年03月03日-03月05日   广东现代国际展览中心(东莞厚街)
联系我们 Language:

打破两堵“墙”,存算一体芯片该如何发挥作用?

2021-12-10 16:46

所有事物的发展都代表了当下时代对其提出的新要求,半导体行业也没有例外。

前日,阿里达摩院发布了全球首款使用混合键合3D堆叠技术实现存算一体的芯片,在行业内引起了不小的轰动。存算一体技术作为打破存储墙和功耗墙的重要解决方案,又一次站在了聚光灯下。

两堵”墙”:存算一体技术发展的必要性

存算一体的发展是时代发展的要求,现有冯·诺伊曼计算系统采用存储和运算分离的架构,存在“存储墙”与“功耗墙”瓶颈,严重制约系统算力和能效的提升。

在冯·诺伊曼架构的核心设计中计算机的组成架构包括运算器、控制器、存储器、输入设备、输出设备五部分。

在冯·诺伊曼架构中,计算单元要先从内存中读取数据,计算完成后,再存回内存,这样才能输出。随着半导体产业的发展和需求的差异,处理器和存储器二者之间走向了不同的工艺路线。由于工艺、封装、需求的不同,从1980年开始至今二者之间的性能差距越来越大。数据显示,从 1980年到 2000年,处理器和存储器的速度失配以每年50%的速率增加。

存储器数据访问速度跟不上处理器的数据处理速度,数据传输就像处在一个巨大的漏斗之中,不管处理器灌进去多少,存储器都只能“细水长流”。两者之间数据交换通路窄以及由此引发的高能耗两大难题,在存储与运算之间筑起了一道“存储墙”。

此外,在传统架构下,数据从内存单元传输到计算单元需要的功耗是计算本身的约200倍,因此真正用于计算的能耗和时间占比很低,数据在存储器与处理器之间的频繁迁移带来严重的传输功耗问题,称为“功耗墙”。

再加上人工智能的发展,需要运算的数据量开始了极大的增长。人工智能算法是一个很庞大和复杂的网络,包含大量的图像数据和权重参数,计算的过程中又会产生大量的数据,数据需要在计算单元和存储单元之间进行频繁的移动,这迫切需要合适的手段来减少数据移动及其带来的性能和功耗开销。

自1945年提出的冯·诺伊曼架构,其本身仍是现代计算机的主要架构,在此架构下关于存算流程的弯路,在当时是合理的。但是在人工智能飞速发展的现在,却有必要颠覆它。

于是,业界开始寻找弱化或消除存储墙及功耗墙问题的方法,开始考虑从聚焦计算的冯·诺伊曼体系结构转向存算一体结构。

近存储计算还是存内计算?

为了解决以上问题,存算一体芯片应运而生。其核心思想是将部分或全部的计算移到存储中,计算单元和存储单元集成在同一个芯片,在存储单元内完成运算,让存储单元具有计算能力。这种极度近邻的方式很大程度上降低了数据移动的延迟和功耗,解决了存储墙问题。

阿里达摩院发布的2020年十大科技趋势里,它认为存算一体是突破AI算力瓶颈的关键技术,朝着这个趋势阿里发布了近存储计算芯片。近存储计算与存内计算都是存算一体的实现方式,但是概念不同。

近存储计算指的是计算操作由位于存储芯片外部的独立计算芯片完成。通过采用先进的3D封装方式把内存和计算单元封装在一起,可以达到几千根甚至上万根连线,两者之间的带宽增加,提高了数据搬运速度。近存储计算本质上来说还没有做到真正的存算“一”体。

它从一开始设计计算芯片和存储芯片的时候,就设计好了链接两方的通路,将数据运输距离极致缩短。设计芯片本就相当于用这些晶体管在指甲盖大小的面积上建造一座城市,现在是需要重新设计两座城市,并提前在中间设计好互相链接的通道,这是难点,也是竞争力。阿里发布的,正是采用这个技术的存算一体芯片。

存内计算指的是通过在存储器颗粒上嵌入算法,使得存储芯片内部的存储单元完成计算操作,存储单元和计算单元完全融合,没有独立的计算单元。

在这种方式下,数据不需要单独的运算部件来完成计算,而是在存储单元中完成存储和计算,消除了数据访存延迟和功耗,是一种真正意义上的存储与计算融合。同时,由于计算完全依赖于存储,因此可以开发更细粒度的并行性,获得更高的性能和能效,存算一体对于符合的应用会带来较高的性能收益和能效收益,这种方式尤其适用于人工智能应用。

积极布局的龙头与勇往直前的初创公司

存算一体仍旧是解决存储墙和功耗墙问题的重要技术,一些处于行业领先地位的半导体公司正在积极进行自研,还有一些公司通过投资初创公司来布局存算一体技术。

国外巨头中,三星早在2019年就阐述了其在2030年希望完成的愿景:当AI半导体技术变得更加复杂时,存储器和处理器将最终集成为一体。今年2月,三星发布了HBM-PIM存内计算技术,在高带宽内存 (HBM) 配置中集成内存处理 (PIM) 。PIM 将可编程计算单元 (PCU) 的 AI 引擎集成到内存核心中来处理某些逻辑函数,PIM 将刺激需要持续性能改进的 AI 应用程序的使用量增长。与现有的内存解决方案相比,三星的 PIM 理论上可以通过可编程计算单元 (PCU) 提高 4 倍的性能。

此外,IBM在2016年就透露了其关于存内计算的研发计划,提出了混合精度内存计算的新概念。

美国存算一体AI芯片初创公司Mythic发布的存算一体芯片,依靠模拟计算技术,将足够的存储与大量并行计算单元打包在芯片上,以最大化内存带宽并减少数据移动的能力。在今年C轮融资中,Mythic筹集7000万美元,自成立以来Mythic的总融资额已达到1.65亿美元。

此外,美国另一家专注于语音识别的存算一体AI芯片公司Syntiant也受到微软、亚马逊、应用材料、英特尔、摩托罗拉和博世的支持。

在国内企业中,看准存算一体趋势的阿里也激情入局,打出了一张好牌。而阿里也不止步于此,近存储技术之后,阿里还将向存内计算技术进发。

除了阿里外,众多初创公司也努力在存算一体这个赛道狂奔,一些厂商也通过投资初创公司来布局存算一体技术,还包括知存科技、后摩智能、闪亿半导体等初创公司。

知存科技于2017年成立,目前知存推出国际首个存算一体加速器WTM1001和首个存算一体SoC芯片WTM2101。今年,知存科技获得了华为哈勃的投资。知存科技已经获得五轮产业资本领投融资,累计融资3亿元。

闪亿半导体作为该领域国产化芯片的先行者,于2017年7月创立,创始团队分别毕业于清华大学和北京大学,闪亿专注于研发、生产最先进的存储-运算阵列SoC芯片,聚焦人工智能计算。其在2019年10月发布了其首款存算一体芯片,该公司负责人鲁辞莽表示,这款芯片在运行效率上能提高10TOPS/W,成本比传统AI芯片方案下降超一半。

后摩智能更是于今年完成3亿元融资,资金将用来加速推动存算一体技术落地,作为国内首家采用存算一体技术打造大算力芯片的公司,后摩智能也拥有充满野心的愿景:打造出具有“十倍效应”的AI芯片, 满足真正人工智能时代的超大算力需求,用无限算力去改变世界。

存算一体的荆棘之路

当前,存算一体芯片产业还算不上成熟,在产业链方面仍旧存在上游支撑不足,下游应用不匹配的诸多挑战。在芯片的设计阶段,另外由于存算一体芯片和常规的芯片设计方案有所不同,目前市面上也没有成熟的专用EDA工具辅助设计和仿真验证;芯片流片之后,没有成熟的工具协助测试;在芯片落地应用阶段,暂时没有专用的软件与之匹配。

类脑技术暂时遥不可及,存算一体看起来是目前问题的较优解。技术的发展来源于日益增长的需求,考虑如何进行创新与创造,如何完善重要技术的生态链,是行业上下游厂商应该考虑的问题。