影视聚合站 科技 文章内容

3D芯片技术颠覆计算的三种方式

发布时间:2022-03-29 18:24:53来源:IEEE电气电子工程师

点击蓝字关注我们

SUBSCRIBEtoUS

AMD

AMD、Graphcore和英特尔展示了该行业领先优势垂直发展的原因。

最近亮相的一批高性能处理器表明,延续摩尔定律的新方向即将到来。每一代处理器都需要比上一代拥有更好的性能,这意味着在硅片上集成更多的逻辑。但是这会面临两个问题:一个是我们缩小晶体管及其构成的逻辑和内存块的能力正在放缓。另一个是芯片已经达到了尺寸极限。光刻工具只能图案化大约850平方毫米的区域,相当于NvidiaGPU的顶级尺寸。

几年来,片上系统的开发人员已经开始将他们越来越大的设计分解成更小的小芯片,并将它们在同一个封装内链接在一起,以有效增加硅面积及其他优势。在CPU中,这些连接大多是所谓的2.5D,芯片彼此相邻,并使用短而密集的互连进行连接。由于大多数主要制造商已经就2.5D芯片到芯片通信标准达成一致,这种集成的势头可能只会越来越大。

但是,要像在同一个芯片上一样传输大量数据,需要更短、更密集的连接,而这只能通过将一个芯片堆叠在另一个芯片上来实现。面对面连接两个芯片意味着每平方毫米有数千个连接。

这需要大量的创新才能使其发挥作用。工程师必须弄清楚如何防止堆栈中一个芯片的热量杀死另一个芯片,决定哪些功能应该去哪里以及应该如何制造,防止偶尔出现的坏芯片导致大量昂贵的无用系统,并处理随之而来的一次解决所有这些问题的复杂性。

这里有三个例子,从简单到复杂,展示了3D叠加的现状。

AMD的Zen3

AMD

AMD的3DV-Cache技术将一个64兆字节的SRAM缓存[红色]和两个空白结构小芯片连接到Zen3计算芯片上。

长期以来,PC都提供了添加更多内存的选项,从而为超大型应用程序和数据繁重的工作提供更快的速度。由于3D芯片堆叠,AMD的下一代CPU芯片也提供了该选项。当然,它不是售后加装的,但如果你想打造一台具有额外能力的计算机,那么订购具有超大缓存内存的处理器可能是一个不错的选择。

尽管Zen2和新的Zen3处理器内核都使用相同的台积电制造工艺制造——因此具有相同尺寸的晶体管、互连和其他一切——AMD进行了如此多的架构改动,这让他们即使没有额外的高速缓存的前提下,Zen3也能提供平均19%的性能提升。其中一个架构瑰宝是包含一组硅通孔(TSV),垂直互连直接穿过大部分硅。TSV构建在Zen3的最高级别缓存中,即称为L3的SRAM块,它位于计算芯片的中间,并在其所有八个内核之间共享。

在用于数据繁重工作负载的处理器中,Zen3晶圆的背面被减薄,直到TSV暴露出来。然后,使用所谓的混合键合(hybridbonding)将64兆字节的SRAM芯片连接到暴露的TSV上,这一过程就像将铜冷焊接在一起。其结果是一组密集的连接,可以接近9微米。最后,为了结构稳定性和热传导,将空白硅芯片连接到Zen3CPU芯片的其余部分。

通过将额外的内存设置在CPU芯片旁边来添加额外的内存不是一种选择,因为数据需要很长时间才能到达处理器内核。“尽管L3[缓存]大小增加了三倍,但3DV-Cache仅增加了四个[时钟]周期的延迟——这只能通过3D堆叠来实现,”AMD高级设计工程师JohnWuu在IEEE国际固态电路会议(IEEEInternationalSolidStateCircuitsConference)时如此表示表示。

更大的缓存在高端游戏中占有一席之地。使用台式机RyzenCPU和3DV-Cache可将1080p的游戏速度平均提高15%。它也适用于更严肃的工作,将困难的半导体设计计算的运行时间缩短了66%。

Wuu指出,与SRAM缩小逻辑的能力相比,业界缩小SRAM的能力正在放缓。因此,你可能会期望未来的SRAM扩展包继续使用更成熟的制造工艺制造,而计算芯片则被推向摩尔定律的前沿。

Graphcore的BowAIProcessor

GRAPHCORE

即使堆栈中的一个芯片上没有单个晶体管,3D集成也可以加快计算速度。总部位于英国的AI计算机公司Graphcore仅通过在其AI处理器上安装供电芯片,就大幅提高了其系统性能。添加供电硅意味着名为Bow的组合芯片可以运行得更快(1.85GHz与1.35GHz相比),并且电压低于其前身。与上一代相比,这意味着计算机训练神经网络的速度提高了40%,能耗降低了16%。重要的是,用户无需更改其软件即可获得这种改进。

电源管理芯片由电容器和硅通孔组合而成。后者只是向处理器芯片提供电力和数据。真正起作用的是电容器。与DRAM中的位存储元件一样,这些电容器形成在硅中的深而窄的沟槽中。由于这些电荷库与处理器的晶体管非常接近,因此电源传输变得平滑,从而使处理器内核在较低的电压下运行得更快。如果没有功率传输芯片,处理器将不得不将其工作电压提高到高于其标称水平,才能在1.85GHz下工作,从而消耗更多的功率。有了电源芯片,它可以达到这个时钟频率,并且消耗更少的电力。

用于制造BoW的制造工艺是独一无二的,但不太可能保持这种状态。大多数3D堆叠都是在其中一个芯片仍在晶圆上的情况下,将一个芯片与另一个芯片连接起来,称为晶圆上的芯片(参见上文“AMD的Zen3”)。相反,Bow使用了台积电的晶圆对晶圆,即一种晶圆与另一种晶圆结合,然后切成小块。Graphcore首席技术官兼联合创始人SimonKnowles表示,这是市场上第一款使用该技术的芯片,它使两个芯片之间的连接密度高于使用晶片上工艺所能实现的连接密度。

尽管电力传输芯片没有晶体管,但它们可能即将问世。Knowles说:“仅将该技术用于电力输送对我们来说只是第一步,在不久的将来,它将走得更远。”

英特尔PonteVecchio超级计算机芯片

INTEL

Aurora超级计算机被设计成第一台突破exaflop(每秒十亿次高精度浮点计算)屏障的美国高性能计算机(HPC)。为了让Aurora达到这样的高度,英特尔公司的PonteVecchio将47块硅上的1000多亿晶体管封装在一个处理器中。使用2.5D和3D技术,英特尔将3100平方毫米的硅压缩成2330平方毫米的面积,几乎相当于四个NvidiaA100GPU。

英特尔研究WilfredGomes告诉参加IEEE国际固态电路大会的工程师,该处理器将英特尔的2D和3D芯片集成技术推向了极限。

每个PonteVecchio实际上是两组镜像芯片,它们使用英特尔的2.5D集成技术Co-EMIB连接在一起。Co-EMIB在两个3D芯片堆之间形成高密度互连的桥梁。桥本身是嵌入封装有机衬底中的一小片硅。硅上的互连线的密度是有机衬底上的两倍。Co-EMIB芯片还将高带宽内存和一个I/O芯片连接到“基片”上,这是最大的芯片,其余的芯片都堆叠在其上。

基础tile使用英特尔的3D堆叠技术,称为Foveros,在其上堆叠计算和缓存小芯片。该技术在两个芯片之间建立了密集的芯片到芯片垂直连接阵列。这些连接可以是36微米,除了短铜柱和焊料微凸块。信号和电源通过硅通孔进入这个堆栈,相当宽的垂直互连直接穿过大部分硅。

这一切都不容易。Gomes说,它在产量管理、时钟电路、热调节和电力输送方面进行了创新。例如,英特尔工程师选择为处理器提供高于正常值(1.8伏)的电压,以便电流足够低,从而简化封装。基础块中的电路将电压降低到接近0.7V以用于计算块,并且每个计算块必须在基础块中有自己的电源域。这种能力的关键是新型高效电感器,称为同轴磁性集成电感器。因为这些都内置在封装基板中,所以在向计算块提供电压之前,电路实际上在基础块和封装之间来回蜿蜒。

Gomes说,从2008年的第一台petaflop超级计算机到今年的exaflops机器,用了整整14年。Gomes告诉工程师们,先进的封装技术,如3D堆叠技术,可以帮助将下一个千倍的计算改进缩短到六年。

微信号|IEEE电气电子工程师

新浪微博|IEEE中国

·IEEE电气电子工程师学会·

© 2016-2022 ysjhz.com Inc.

站点统计| 举报| Archiver| 手机版| 小黑屋| 影视聚合站 ( 皖ICP备16004362号-1 )