AI时代下的半导体测试革命

2023-10-08 02:10

当今，芯片行业正经历一系列深刻的变革：设计复杂性日益增加、向埃米时代的跨越、1000倍的功率目标减少、multi-die的挑战，还有很重要的人才短缺问题。据BCG ananlysis的分析，到2030年，据预测，美国的设计工作者需求将高达89,000人，相比现在预计将有接近50%的增长。但遗憾的是，到那时供应量预计只有66,000人，且这一数字每年仅增长不到1%。这就意味着到2030年，设计行业面临的人才短缺达到23,000人，并且这个数字预计每年还会以3,000人的速度持续增长，缺口高达35%。

“时间就是金钱”是半导体行业中的生动演绎。为了应对这一系列的挑战，半导体行业必须不断地寻找新的方法来提高生产效率和质量。近些年，EDA“左移”策略在芯片设计中逐渐被广大业界所采纳。物理设计、测试与验证等环节越来越多地被提前到RTL设计阶段。值得关注的是，AI的逐渐参与，也成为一道亮丽风景线。现在，AI技术不仅渗透到了芯片设计、验证和制造，还开始渗透到测试中，为测试这一传统流程注入了前所未有的活力和精确性。

芯片测试复杂性攀升，亟需更先进的ATPG技术

随着芯片不断迈向先进工艺节点技术及其设计规模的扩张，测试领域遭遇了前所未有的复杂度和挑战。采用先进工艺的设备导致了测试设备（ATE）成本的急剧上升，主要受到高引脚数、快速接口和深度模式存储器对高性能测试硬件的需求影响。此外，随着芯片的功能不断扩展，也带来了对更多逻辑的测试需求，进而需要更多的模式和测试器内存，导致测试成本的持续增长。

在芯片测试中，"pattern count" 是一个很重要的概念。它通常指的是测试向芯片应用的测试模式的数量。简单地说，这些pattern是一系列的输入信号，用于检查芯片上的各种功能和结构是否按预期工作。每一个pattern都会模拟一个特定的工作场景或操作条件，以确定芯片在该场景或条件下是否正常工作。

pattern count与测试成本直接相关。因为高pattern count可能意味着更为详尽和全面的测试，但也可能意味着更长的测试时间和更高的成本。相反，一个低的pattern count可能减少了测试的时间和成本，但可能遗漏某些关键的测试场景。所以，对于pattern count需要找到一个平衡，既能确保芯片在各种场景下都经过充分测试，又能保持效率。在芯片测试中，优化pattern的数量至关重要。

为了生成这些pattern count，自动测试模式生成（ATPG）流程应用而生。ATPG的主要目标是确保芯片或硬件系统的高质量、低成本、快速运行和高生产率。在质量方面，它需要检测所有的有缺陷的部件，从而保证较低的DPPM（每百万件的缺陷部件数），并支持先进的故障模型。从成本的角度考虑，ATPG要努力最小化测试pattern或测试周期，同时也减少测试的数据量。在运行时间方面，它强调快速的pattern生成和质量结果分析。为了提高生产率，ATPG工具需要有开箱即用的自动化功能。

典型的ATPG流程往往比较复杂，它包含多个相互依赖的参数，而且主要依赖手动迭代和微调测试配置来优化测试结果质量 (QoR) ，但手动估计参数可能会导致不准确的结果或效率低下。工程师需投入大量时间进行迭代以保证测试质量。而且ATPG流程的不可预测性增加了管理难度，这可能需要经验丰富的工程师来支持。这些问题可能会导致项目延误和资源浪费，还延长了流片的项目时间线，增加硅片测试成本。

所以，现在的ATPG技术已经不足够满足当前的需求，工程师不能再依赖这种方法来满足最后期限或实现最佳结果。行业亟需更先进和高效的ATPG解决方案来满足未来芯片在测试领域的挑战。

新思科技TSO.ai工具为半导体测试注入AI动力

面对复杂的半导体测试挑战，AI展现出了其潜在的价值。与传统的方法相比，AI能够更快、更准确地生成测试pattern，确保高覆盖率，同时还能大幅度减少所需的时间和资源。

作为将AI引入EDA工具领域的先行者，新思科技的TSO.ai（测试空间优化 AI）是业界首款用于半导体测试的自主人工智能 (AI) 应用程序，它有如下四大主要特点或优势：

利用人工智能技术，以更少的pattern实现更高的测试覆盖率。

提供可重复且可预测的流程，以满足设计进度的需求。

通过有效的迭代和并行运行加速周转时间。

无需专门的工具知识，即可在大规模上实现专家级的生产力。

那么，TSO.ai是如何借助AI的力量来实现这些优势的？

为了提高效率，TSO.ai通过并行ATPG运行学习并确定这些因子之间的关联性，根据学习结果智能地调整设置，并通过连续的运行不断减少搜索空间，以达到最优值。TSO.ai工具会尽可能的生成最少数量的测试pattern，来降低测试的周期，并适应有限的测试器存储器。虽然TSO.AI可以最小化pattern数量，但它却是以最大化测试覆盖率为目标。

使用TSO.ai实现的最佳pattern数量

具体到TSO.ai运行上，有两种配置策略：包括冷启动和热启动。没有先前关于设计和参数的学习的初始TSO.ai运行称为冷启动。热启动利用从先前运行中学到的知识，用于在小型设计或ATPG修改后节省时间。为了减少TSO.ai的周转时间，可以先对故障样本进行冷启动，然后对完整的故障集合进行热启动。

在这两种启动模式中，用户可以自定义并行的TestMAX ATPG运行数量和学习迭代次数，这些并行运行被视为在多台机器上运行的“工作人员（Workers）”（如下图所示），而每台机器上的迭代次数被称为“乘数（multiplier）”。根据可用的计算资源，用户可以选择使用更多的工作人员与较低的乘数以快速得到结果，或者使用较少的工作人员与较高的乘数来在运行时进行权衡。

具体到实际操作，为了缩短TSO.ai的周转时间，我们可以先对一个小的故障样本执行冷启动，配置为使用12个工作人员和3个乘数。接着，对完整的故障集合进行热启动，这时的配置可以调整为使用5个工作人员和1个乘数。

系统学习和重用的模型：ML模型在整个设计周期中不断训练

目前在早期客户参与的结果中，TSO.ai在多个领域有持续的测试成本降低。在许多情况下，pattern数量平均减少了20-25%。其中在某些最佳案例中，有超过50%的pattern减少。具体可参见下图。

新思科技建议的TSO.ai使用流程如下：

缺陷覆盖率、pattern count以及运行时间是评估ATPG工具结果时需要考虑的三个关键指标。TSO.ai工具是未来芯片测试领域的瑰宝。它不仅通过自动优化pattern数量降低了测试成本，还通过消除冗长和随机的ATPG迭代大大缩短了测试时间。最令人印象深刻的是，无论是资深工程师还是初入行的新手，都能通过它实现专家级的工作效率。

AI驱动芯片设计的时代已经来临

早在2020年，新思科技推出了全球首个用于芯片设计的AI应用程序DSO.ai；2021年该公司创下了一个世界生产力记录，一个工程师完成了10个模块的设计，而且总功率降低了9%；2022年，DSO.ai取得了前所未有的采用记录，半导体行业的TOP10中有9家公司采用了这一技术。与传统设计方法相比，使用AI设计的芯片在性能上有了100%的提升，且DSO.ai已经使得超过100种商业产品通过了设计验证。

2023年，新思科技推出了行业首个AI驱动的电子设计自动化(EDA)整体解决方案Synopsys.ai，该全流程解决方案涵盖了设计、测试、验证和制造等多个方面。它包括用于下一代设计的DSO.ai，用于验证的VSO.ai以及本文所讲的用于测试的TSO.ai。

Synopsys.ai EDA整体解决方案

可以说，AI已经渗透到芯片产业链的各个过程，从设计、制造到测试，都展现出了巨大的潜力。这种渗透使得工程师能够更多地专注于芯片的质量和差异化，而不是繁琐的重复任务。未来，随着AI和深度学习与EDA工具的深度磨合和优化，将进一步推动半导体技术的革新。

*免责声明：本文由作者原创。文章内容系作者个人观点，半导体行业观察转载仅为了传达一种不同的观点，不代表半导体行业观察对该观点赞同或支持，如果有任何异议，欢迎联系半导体行业观察。

今天是《半导体行业观察》为您分享的第3548期内容，欢迎关注。