VLSI Layout Hotspot Detection Based on DiscriminativeFeature Extraction

论文笔记–VLSI Layout Hotspot Detection Based on DiscriminativeFeature Extraction

基于鉴别特征提取的超大规模集成电路版图热点检测

摘要

特征提取是基于机器学习的VLSI布局热点检测流程的关键阶段。常规的基于机器学习的方法应用各种特征提取技术来近似纳米级的原始布局结构。但是，在近似过程中会丢失一些重要的布局模式信息，从而导致性能下降。在本文中，我们对布局特征提取进行了全面的研究，并提出了一种新的方法，该方法可以保留判别性的布局图案信息，从而在准确性和额外性方面提高检测性能。

引言

随着现代集成电路特征尺寸和光刻波长之间的差距增加[1]，确保电路布局设计的可印刷性至关重要。开发了各种可印刷感知方法，例如设计规则检查（DRC），光学邻近校正（OPC）和次分辨率辅助特征（SRAF），以减少电路制造过程中的性能下降或良率损失。然而，存在一些对光刻工艺敏感的布局图案，并且将产生不希望的印刷。这些布局模式称为VLSI布局热点，需要在物理验证阶段进行检测。

近年来，热点检测问题已引起越来越多的关注[2]。模式匹配和基于机器学习的方法已被广泛研究并应用于该问题[3] – [6]。模式匹配是解决热点检测问题的一种高效计算方法，但是该方法需要预先定义的训练布局模式集，无法有效检测到看不见的热点。机器学习以其出色的泛化能力而闻名，它可以检测出与训练数据具有相似特征的看不见的布局模式，并已被广泛使用。然而，在特征提取过程中必须设计适当的布局特征以捕获热点和非热点布局模式之间的区别性特征。

已经探索了各种特征提取方法[4] – [8]，以提高基于机器学习的方法的性能。为了表示布局模式，工作[7]精心设计了基于片段的功能，这对于某些设计案例而言可能太复杂了。另外，文献[6]还利用了一些关键的拓扑特征，例如两个相邻块图块之间的距离以及块图块两个凸角之间的对角关系。此功能很简单，但可能会忽略布局模式的一些重要信息。 为了简化布局特征同时保留关键信息，[4]，[5]应用了基于密度的特征提取方法。尽管到目前为止，基于密度的特征在热点检测问题中已经达到了最高的精度，但是仍然存在许多无法检测到的热点。本文提出了一种新的特征提取方法，该方法具有更高的准确度和更少的额外信息。我们的贡献如下：

•我们提出一种布局功能，称为局部网格密度差（LGDD），与传统的基于密度的方法不同，LGDD测量网格中特定区域的密度。
•我们进一步分析了改变相邻网格之间的间距时LGDD的性能。

本文的其余部分安排如下。第二节介绍了热点检测框架，并定义了一些有用的术语来评估我们的方法。第三节提出了局部网格密度微分（LGDD）方法，并引入了另一个参数。第四节提出了在我们的框架中使用的机器学习模型。第五节给出了实验结果，然后在第六节中得出结论。

前提

本节介绍基于机器学习的热点检测流程、评估指标和问题制定

A.热点检测流程
我们的热点检测流程包括两个阶段，即“训练阶段”和“测试阶段”，如图1所示。培训阶段的目标是建立学习模型。在这一阶段，给出了一组热点和非热点布局模式及其对应的标签，并在布局特征提取后对机器学习模型进行了校准。测试阶段的目标是检测热点。在此阶段，将一组不同于训练布局模式的测试布局模式用作输入。然后在这些布局模式上执行特征提取，之后机器学习模型将预测标注（标识为热点或非热点）的测试模式。
VLSI Layout Hotspot Detection Based on DiscriminativeFeature Extraction
B.评估指标和问题表述
为了评估我们提出的方法的性能，我们定义了几个有用的术语，如下所示：
定义1（准确性）：实际热点集合中正确预测热点的比率。
定义2（额外）：数字错误检测到的热点。
基于以上两个术语定义，我们给出了热点检测的问题表述：
问题1（热点检测），给出了包括热点和非热点在内的一组训练布局模式，训练了机器学习模型来识别测试布局中的热点。目的是最大程度地提高准确性，并减少额外费用。

布局特征提取

如引言中所述，布局特征在热点检测问题中起着重要作用，在热点问题中，布局模式信息由一组特征向量表示。尽管已经提出了几种布局特征提取方法[4] – [8]，但是如何准确表示布局图案仍然是一个问题。在本节中，我们提出了一种新颖的布局特征提取方法，称为局部网格密度差（LGDD），以提高常规特征提取方法的性能。此外，我们分析了不同间距对检测性能的影响。

A.基于常规密度的特征
众所周知，电路布局图案非常复杂并且很难处理，因为它只能在高维空间中表示。例如，假设ICCAD基准测试的核心区域为1.2μm2的区域设置在a1nmgrid上，则我们必须使用1200×1200向量来表示模式，但是这些高维向量对训练阶段构成了威胁，这仅仅是因为很难获得足够的实例来进行模型训练。解决此问题的一种方法是对这些布局模式应用有效的特征表示或提取方法。如第一节所述，基于密度的特征是最有效的方法之一，并且有很大的改进潜力。我们将讨论传统的基于密度的特征并推导其改进的版本。

众所周知，电路布局图案非常复杂并且很难处理，因为它只能在高维空间中表示。例如，假设ICCAD基准测试的核心区域为1.2μm2的区域设置在一个1nm网格上，则我们必须使用1200×1200向量来表示模式，但是这些高维向量对训练阶段构成了威胁，这仅仅是因为很难获得足够的实例来进行模型训练。解决此问题的一种方法是对这些布局模式应用有效的特征表示或提取方法。如第一节所述，基于密度的特征是最有效的方法之一，并且有很大的改进潜力。我们将讨论传统的基于密度的特征并推导其改进的版本。

传统的基于密度的布局特征表示如图2所示。特征向量X由几个实数值组成，表示为第i行和第j列中网格的密度值。此功能有两个重要参数，分别是布局图案的大小和行或列的网格数。基于密度的特征向量的总长度为g2。例如，在图2中，g = 5，特征向量的长度是g2 = 25

VLSI Layout Hotspot Detection Based on DiscriminativeFeature Extraction
基于密度的特征具有布局图案的简单表示，即该特征位于低维空间中，并且可以避免过度拟合的问题。尽管它在热点检测问题[4]中取得了良好的性能，但在特征提取过程中仍然忽略了一些重要信息。将从两个角度介绍基于常规密度的特征提取方法的新颖扩展：
1）如何从一个网格中提取判别信息；
2）如何对密度网格进行采样；

B.局部网格密度差
传统的基于密度的方法通过局部平均网格的密度值来提取布局图案的几何信息。尽管可以获得合理的良好性能，但在特征提取过程中可能会丢失一些重要信息。如图3所示，如果我们从图3（a）和图3（b）中提取特征，它们的表示向量将是相同的。因此，必须从每个网格中提取更多的判别信息。在本文中，我们提出了一种称为局部网格密度差（LGDD）的方法，用于从布局中提取判别性特征表示。

VLSI Layout Hotspot Detection Based on DiscriminativeFeature Extraction
与传统的基于密度的局部平均网格的密度值不同，我们局部地平均网格中特定区域的密度值。由于布局中的多边形由多个矩形组成，因此直观地设置采样区域的形状如图4所示。更具体地说，我们将采样区域设置为位于网格不同角的三角形。具有不同采样面积的目标是为布局图案表示提取更多的判别信息。从图4中可以看到，一个网格中有两个三角形，每种情况下是一个阴影阴影的区域，一个空白阴影区域。当我们从这些网格中提取特征时，我们仅对阴影区域的密度值求平均值。然后，与传统的基于密度的方法相同，我们将所有网格值连接起来以形成特征向量。

VLSI Layout Hotspot Detection Based on DiscriminativeFeature Extraction
从图3中可以看出，基于密度的方法可以从不同的模式中提取相同的特征向量（图3（a）和图3（b））。尽管LGDD方法可能存在相同的问题，但我们可以通过以下方法解决该问题连接来自不同采样区域的值（例如，图4中的4种采样区域）。但是，这也可能导致特征向量尺寸增加4倍，并可能导致过度拟合的问题。幸运的是，带有决策树[10]分类器的Adaboost [9]可以有效地执行特征选择，并且可以避免过度拟合。从实验结果可以看出，LGDD的性能优于传统的基于密度的方法。

C.密度网格之间的跨度
在本小节中，我们将介绍一种新的基于约定密度的方法参数，称为stride，stride表示为s,我们的方法中使用的是相邻网格之间的间距（垂直和水平），其中将提取网格的密度值（参见图5）。在我们的方法中，传统的基于密度的方法可以看作是一个特例，其中s = w（具有单个网格的宽度，如图5所示）。
VLSI Layout Hotspot Detection Based on DiscriminativeFeature Extraction
与传统的基于密度的方法不同，在传统的基于密度的方法中，相邻网格之间的步幅与其宽度相同，我们的方法可以通过较小的网格从更多的网格中提取图案信息

机器学习模型

在本节中，我们将描述用于解决热点检测问题的机器学习模型。我们关注最有效的机器学习方法之一，即提升方法 [9]和决策树[10]。在描述机器学习模型之前，我们给出一些将在模型中使用的通用变量。我们使用（x，y）表示布局图案，其中提取的是布局图案的特征向量，然后是标签。给定一组训练向量X =（x1，…，xn）和相应的标签Y =（y1，…，yn），我们可以构建分类器。

A. Adaboost
Adaboost是一种集成学习算法，可以与许多其他弱学习算法（弱学习者）结合使用以提高其性能。单个学习者可能很弱，但是只要每个学习者的表现都比随机猜测稍好（即，对于二进制分类，他们的错误率小于0.5），则最终模型可以证明可以收敛为一个强学习者。 Adaboost的算法流程如算法1所示。
VLSI Layout Hotspot Detection Based on DiscriminativeFeature Extraction
在算法一中，T是弱分类器的数量，Dt是给定样本的权重，n是训练样本的数量，et是第t次迭代错误率，at是第t次迭代弱分类器的权重，最终分级器可级联为:

B.决策树
本文使用决策树作为弱分类器[10]，这是一种非参数监督分类的学习方法。这里给出决策树分类器的数学表述。让节点处的数据由Q表示。对于由特征阈值tm组成的每个候选分割θ=（j，tm），将数据划分为左子树（θ）和右子树（θ）
VLSI Layout Hotspot Detection Based on DiscriminativeFeature Extraction
使用如下定义的杂质函数H计算的杂质因子。杂质形成如下：

其中，nleft是左分区中的数据样本数，nright是右分区中的数据样本数，Nm是结点m中所有样本的数目。然后选择最小化杂质的参数：
VLSI Layout Hotspot Detection Based on DiscriminativeFeature Extraction
对子集Qleft（θ∗）和Qright（θ∗）进行递归，直到达到最大允许深度，或者Nm <NminorNm = 1（N最小节点中的最小样本数）。目标是分类结果，其取值为结点m的值0、1，…，K-1（K是类数），在特征空间中表示一个区域。基尼系数用于构造杂质函数：
VLSI Layout Hotspot Detection Based on DiscriminativeFeature Extraction