芯片散热挑战，刻不容缓！

2023-07-22 03:07

来源：内容由半导体行业观察（ID：icbank）编译自semiengineering，谢谢。

半导体已受到热量的限制，好的设计可以减少它，并帮助消散它。

半导体消耗的功率会产生热量，必须将热量从设备中排出，但如何有效地做到这一点是一个日益严峻的挑战。

热量是半导体的废物。当功率在设备和电线上耗散时就会产生这种现象。设备切换时会消耗电力，这意味着它取决于活动，并且不完美的设备和电线不断地浪费电力。设计很少是完美的，一些热量来自于执行不需要的功能的活动。但在某些时候，设计团队必须弄清楚如何消除热量，因为如果不这样做，产品的使用寿命将非常短。

只有三个过程控制热量的传递：传导、对流和辐射。简单来说，传导适用于固体，对流适用于液体和气体，辐射适用于真空，而这种情况在半导体中很少见。

“与热量相关的三个步骤，” Ansys 半导体部门营销总监 Marc Swinnen 说道。“有产生、传导和耗散。你产生热量，将其传导到某个地方，然后消散。功率分析告诉您热量产生的位置。传导和耗散是一种包括流体学的物理分析。所有这三个都必须包含在系统分析中，因为它们之间存在反馈。”

随着晶体管密度的增加，这变得更加困难。“大多数人都可以改变导电路径，”Cadence 多物理场系统分析小组的摄氏度热解算器产品工程师 Karthick Gopalakrishnan说道。“材料和设计本身有改进的潜力，可以通过散热设备的传导带走更多热量。面临的挑战是，除非我们使用大型服务器，否则这些设备周围的热空间非常小。您必须考虑材料改进、芯片、封装或 PCB 周围热空间的智能利用。你真正想做的是提高传导传热率。”

如果不进行正确的分析，仅仅在设备上放置一个大型散热器就会导致其他问题。要做到这一点，需要考虑气流及其所在空间的机械设计，以便考虑到对其他设备的影响。

即使散热器也有局限性。“有很多方法可以消除系统中的热量，例如强制液体冷却，” Synopsys EDA 集团产品管理总监 William Ruby 说道。“我们看到一些更先进的封装取得了许多进步。通过 3D-IC 设计，可以采用强制气流和液体冷却。有一些关于能够通过特殊通孔减轻热量以帮助扩散的新概念。”

与导体和绝缘体之间存在数量级差异的电导率不同，热导率在某种程度上受到限制。“硅的电导率为 100 至 120 瓦/米开尔文 (W/(mx K))，作为导热材料，这已经相当不错了，”西门子数字工业软件旗下 Simcenter 产品组合的电子与半导体行业总监 John Parry 表示。“铜的电导率只有 400，而铜通常被用作经济经济的最佳热导体。 ”

各种大大小小的散热器和冷板

还有其他经济方面的考虑。Arm系统集成与开发部研究员兼高级总监 Javier DeLaCruz 表示：“数据中心的主要成本驱动因素不是散热方法的成本，而是管理数据中心级别热传递的运营成本。” “进入数据中心的电力是有限的，这些电力在为计算系统供电和提取热量之间共享。因此，每瓦性能必须成为关注的指标，而不仅仅是性能。”

热量会对性能产生重大影响。“即使遵循最佳散热策略，每个芯片在电路运行期间也会不同程度地升温，从而降低性能，” Keysight EDA产品经理 How-Siang Yap 说道。“动态温度可以改变器件的电气特性，例如增益、阻抗和负载牵引失配，以及更高级别的波形特性，例如数字调制信号的射频电路中的误差矢量幅度 (EVM) 和相邻通道泄漏比 (ACLR)。在模拟系统中，影响惩罚可能更高。”

分析并不容易。“当今的芯片非常复杂，以至于很难定义如何创建能够显示最坏情况条件的活动，”Ansys 的 Swinnen 说道。“当您查看由温度引起的计时误差时，您看到的是纳秒，最多几微秒。其次，电参数和热参数的时间常数非常不同，至少两个数量级。当热量绽放时，它会通过芯片和隔壁慢慢消散，因此您会看到热量因两秒钟前在隔壁街区发生的事情而增加。”

芯片内的热量分布

热量倾向于向各个方向传播。“你无法真正阻止热量流向任何地方，”西门子的帕里说。“你可以哄它，但这与电气世界非常不同，在电气世界中，导体和绝缘体之间的电导率差异可能是 20、21 个数量级。从电气角度来说，你可以让电流流向你想要的地方，但从热角度来说，你确实做不到。”

由于热量取决于活动，因此芯片表面的温度并不是恒定、均匀分布的。“您可能有一个由设计中计算量非常大的部分创建的热点，例如硬件加速器，”Synopsys 的 Ruby 说道。“芯片的另一部分可能不太活跃，或者只在特定的操作模式下使用。芯片上的温度梯度取决于工作负载或活动。”

散热在理论上很简单，但在实践中却困难得多。Cadence 的 Gopalakrishnan 表示：“您希望通过在任何层上尽可能多地传播热量来最大程度地减少热点。” “你必须考虑东西放在哪里。将某些东西移动到芯片边缘并不总是可能的，因为在那里热量不会向一个方向扩散。”

虽然您可能无法控制热量，但您可以了解它是如何传播的。“如果你对流经芯片上电线的电流进行建模，并观察由此产生的热通量，那么在所有电流融合在一起之前，它不会走得太远，”帕里说。“你可以查看温度曲线，这并不能真正显示出走线和绝缘体之间的差异。如果您查看温度曲线，您将几乎无法检测到金属痕迹的位置。但如果你观察一下热通量，就会发现金属中的热通量比绝缘体中的热通量高几个数量级。”

这让事情变得容易一些。“对很多这样的东西进行建模时，它会让事情变得更容易，”帕里补充道。“通过不对芯片表面上的单根导线、金属化层进行建模，而是仅使用平均材料属性，您可以获得相当准确的结果，这是一种非常常见的做法。”

一种有效的技术是利用热感知平面图和单元布局。“基本思想是进行布局以最小化峰值温度和温度梯度，”Ruby 说。“借助物理感知 RTL 功耗分析工具，您可以分析初始布局，然后将该功耗曲线数据输入热分析中。这是从基于最终签核或完成的物理实施进行分析的左移，这可能为时已晚，无法开始更改宏观平面图。我们还可以研究通孔密度、凸块密度和不同金属密度等。”

对于 3D-IC，TSV 一直被认为是创建热走廊的一种方法。“更好的 TSV 放置会有所帮助，”Gopalakrishnan 说。“但这也是有限制的，因为它们确实占用了宝贵的空间。在布局规划方面，无论是在芯片级别（当您谈论区块、电源块或功能单元）还是在布线级别（当您尝试添加 TSV）时，都有很大的改变空间。对它们来说最大的优势之一是，当您在芯片或电源附近工作时，您可以瞄准热点。”

但影响有限。“它们在某种程度上被用作热走廊，但如果你把它们想象成铜，它们的导电率只有它们所穿过的硅的四倍，”帕里说。“考虑一个 10×10 的单元，每个角落都有一个 TSV。这是百分之四。由于 TSV 的电导率仅为其所穿过的硅的电导率的四倍，因此您可能为芯片的有效电导率增加了 16%。它对热量没有太大影响，虽然它们确实有帮助，但它并不是灵丹妙药。”

另一种新兴技术是背面供电。“背面电源有助于电力传输，但使散热成为更大的挑战，”DeLaCruz 说。“体硅以前是局部散热的重要机制，现在厚度已从约 800 微米发展到只有 1 微米，使得局部热点更难以管理。TSV 并没有使热管理变得更容易，它们只是让它变得不同，因为 TSV 以非常局部的方式提供帮助，并且仅在垂直于晶体管的轴上提供帮助。TSV 周围的氧化物衬垫也会阻碍横向热能耗散。”

3D 增加了新的热问题。“如果你想到芯片之间的胶水层，这是很常见的，它们的目的是将芯片机械地固定在一起，”帕里说。“你需要一定的厚度。否则，芯片之间的互连处的剪切力太高，并且会导致电气损坏。不幸的是，与硅芯片相比，这些胶层是相对较软的材料，并且还往往具有相对较低的导热率。您需要在热力和机械力之间进行权衡。从热学角度来说，您希望该层尽可能薄，以使通过该层的热传导尽可能有效。从机械角度来说，您希望有一个厚层，因为这样可以吸收两个模具之间位移的不匹配，而其间材料的剪切力相对较小。”

芯片外部的热量分布

热量可以通过封装顶部逸出，然后可能进入散热器，或者通过底部及其所连接的 PCB 逸出。“如果您有塑料包覆成型 BGA，那么您将把绝大多数（80% 到 90%）的热量传递到电路板上，”Parry 说。“如果你的封装具有通往盖子的良好传导路径，那么你可能可以安排 80% 到 90% 的热量通过该路径传导。您可以控制它，具体取决于您所采取的打包方法，但不能完全控制。有些人总是走相反的路。”

您希望热量流向的地方取决于具体应用。“在服务器中，包装周围有很多空间可以利用，”Gopalakrishnan 说。“你倾向于用主动或被动散热器以及有助于散发大量热量的风扇来填充它。PCB 本身不会在散热方面发挥主要作用。当您使用移动设备时，这不是一个解决方案，因为可能大约一半的热量通过底部，剩下的一半则到达顶部。在这种情况下，PCB 将在芯片散热方面发挥重要作用。”

当空间有限时，事情就会变得更加困难。“根据具体市场的不同，可以通过不同的方式来实现这一目标，”Arm 的 DeLaCruz 说道。“例如，在智能手机中，由于系统体积最小且散热有效，石墨或石墨烯薄膜等高导电薄膜的使用非常普遍。在基础设施领域，主动和被动 3D 均热板的使用可以实现数百瓦范围内的运行。”

液体冷却是另一种可能性。“我们最近在对流领域看到了很多进展，”戈帕拉克里希南说。“你有风扇、液体冷却和两相系统。我们还拥有数据中心级别的浸没式冷却等先进系统。您会看到很多设计工程师和制造设备和系统的公司的路线图，他们将液体冷却作为路线图的一部分。这是因为，如果您只是在设备上添加一个散热器并期望它能够冷却，那么当您的散热量超过每平方米 1 千瓦时，它就会达到极限。如果使用风扇，每平方米的功率约为 10 千瓦。但如今，我们拥有每平方米 1 兆瓦的先进服务器设备芯片。你真的必须探索这些策略。”

并非所有人都认为它会很快被采用。安培计算公司产品副总裁 Madhu Rangarajan 表示：“虽然我们预计液体冷却将出现在超级计算集群等专业部署中，但它不太可能广泛扎根。” “对于芯片设计人员来说，在创建新技术时考虑实际基础设施限制并与系统设计人员和数据中心设计人员合作以推动其广泛部署非常重要。我们预计未来五年部署的大多数 CPU 仍需要以有效降低 TCO 的方式进行风冷。”

模型和分析

热可能是第三方小芯片市场的绊脚石之一，因为小芯片需要热模型。“各个小芯片实际上不能相互独立地设计，”Parry 说。“每个芯片都需要了解其相邻芯片上的热源。这些高密度先进封装设计的开发需要更多的协作。为了使设计易于处理，这些东西的开发方式必须改变。”

创建模型并不简单。“有很多事情你确实不想在芯片热模型中披露，”Gopalakrishnan 说。“人们正在努力以降阶模型或某种近似的形式添加自热效应、芯片的热阻特性，而这种近似不一定需要有人了解芯片中存在的每一个几何细节。目前，部分芯片模型就是这样生成的。”

工具也需要改变。“3D-IC 世界是综合模型的世界，需要进行基于模型的分析，”Ruby 说道。“你不可能像我们今天那样把所有事情都平面化。在单个芯片上，我们在网表级别上进行时序签核和电源签核。在 3D-IC 背景下，这可能变得不切实际，因此我们需要开始考虑对各种组件进行建模。”

最终它将设计和包装结合在一起。“你需要将芯片设计工作流程与封装设计工作流程结合起来，”帕里说。“你不能将它们视为一个发生在另一个之前的事件，即芯片被提供给封装组，特别是在 3D-IC 中。但它在某种程度上适用于 2.5D。我们面临的挑战是采用传统上由封装工程师（可能具有机械背景）使用的模拟技术类型，并将其提供给进行 IC 验证的人员作为 IC 设计流程的一部分。他们可能不习惯使用机械工程师使用的工具集。这是采用该技术并重新包装它的情况，以便需要在更高的设计流程中使用它的人们可以使用它。”

结论

许多芯片都面临热障，并且解决该问题并不容易。“不幸的事实是，热量是集成密度的限制因素，”Swinnen 说。“我们可以设计和制造令人难以置信的芯片，但它们会融化。这不是制造限制，也不是设计限制。这是物理限制，我们无法散发更多的热量。”

尽管在某些应用中可以使用奇特的解决方案，但大多数市场必须找到用更少的资源做更多的事情的方法，这意味着每瓦特具有更多的功能。与此相关的成本比过去的解决方案要大得多。

*免责声明：本文由作者原创。文章内容系作者个人观点，半导体行业观察转载仅为了传达一种不同的观点，不代表半导体行业观察对该观点赞同或支持，如果有任何异议，欢迎联系半导体行业观察。

今天是《半导体行业观察》为您分享的第3469期内容，欢迎关注。