Detecting Oriented Text in Natural Images by Linking Segments

利用链接段检测自然图像中的定向文本

Abstract

大多数最先进的文本检测方法都是专门针对水平拉丁文文本的，对于实时应用来说速度不够快。介绍了一种面向文本的文本检测方法–分段链接(SegLink)。其主要思想是将文本分解成两个局部可检测的元素，即片段和链接。段是覆盖部分单词或文本行的方框；链接连接两个相邻的段，表示它们属于同一单词或文本行。通过端到端训练的全卷积神经网络在多个尺度上密集地检测这两个元素。最终检测是通过组合由链路连接的段来产生的。与以前的方法相比，SegLink在精度、速度和训练简易性等方面都有所提高。在标准的ICDAR 2015附带(挑战4)基准上，它实现了75.0%的f-Measure，远远超过了之前的最好表现。它在512×512图像上的运行速度超过20FPS。此外，无需修改，SegLink就能够检测中文等非拉丁文本的长行。

1 Introduction

阅读自然图像中的文本是当前研究中的一项具有挑战性的任务。它是由许多真实世界的应用程序驱动的，例如照片OCR[2]、地理位置和图像检索[9]。在文本阅读系统中，文本检测，即用词或文本行的边界框定位文本，通常是非常重要的第一步。在某种意义上，文本检测可以看作是应用于文本的对象检测，其中以词/字符/文本行作为检测目标。因此，最近出现了一种新的趋势，即最新的文本检测方法[9、6、22、30]在很大程度上基于先进的通用对象检测或分割技术，例如[4、5、15]。
（三）SegLink----2017ECCV论文解读
图1.SegLink概述。上行显示了一幅图像，上面有两个不同比例和方向的单词。(A)在图像上检测到片段(黄框)。(B)检测到相邻段对之间的链路(绿线)。©将由链接连接的片段组合成完整的单词。(d-f)SegLink能够检测拉丁文和非拉丁文本的长行，如中文。
（三）SegLink----2017ECCV论文解读
图2.网络体系结构。该网络由卷积特征层(显示为灰块)和卷积预测器(细灰色箭头)组成。卷积滤波器以“(#Filters)，k(核大小)s(STRIDE)”的格式指定。多行滤波器规格意味着在两者之间有一个隐藏层。分段(黄框)和链接(未显示)由多个要素图层(由l=1索引)上的卷积预测器检测。.6)并通过组合算法组合成整个单词。

尽管先前的工作取得了巨大的成功，但我们认为，一般的检测方法不适用于文本检测，原因有两个。首先，字/文本行边界框的纵横比比普通对象大得多。由于其提议或锚盒设计，（更快/更快）R-CNN [5、4、19]或SSD [14]型检测器可能会遇到生产此类盒子的困难。另外，某些非拉丁文字在单词之间没有空格，因此边框的纵横比甚至更大，这使问题更加严重。第二，与一般对象不同，文本通常具有明确的方向定义[25]。对于文本检测器来说，产生定向的盒子很重要。但是，大多数常规的对象检测方法并未设计为生成定向的盒子。

为了克服上述挑战，我们以新的视角解决了文本检测问题。我们建议将长文本分解为两个较小的局部可检测元素，即片段和链接。如图1所示，段是一个定向框，覆盖了单词的一部分（为清楚起见，我们在此及以后使用“单词”，但段也可在包含多个单词的文本行上无缝地工作）；链接连接一对相邻的段，指示它们属于同一单词。在上述定义下，单词由多个段之间的链接定位。在检测期间，通过卷积神经网络在输入图像上密集检测段和链接。然后，根据链接将这些段组合成整个单词。

这种方法的主要优点是现在可以在本地检测到长的定向文本，因为这两个基本元素都是本地可检测的：检测片段不需要观察整个单词。也不需要链路，因为两个网段的连接可以从本地上下文中推断出来。此后，我们可以非常灵活和高效地检测出任意长度和方向的文本。

具体地说，我们提出了一种卷积神经网络(CNN)模型，以一种完全卷积的方式同时检测分段和链接。该网络使用VGG-16[21]作为其主干。将向其添加几个额外的要素图层。将卷积预测器添加到6个要素图层，以检测不同比例的线段和链路。为了处理冗余检测，我们引入了两种类型的链路，即层内链路和跨层链路。层内链路将网段连接到同一层上的邻居。另一方面，跨层链路将网段连接到其较低层上的邻居。通过这种方式，我们将相邻位置的线段以及比例连接起来。最后，我们使用深度优先搜索(DFS)算法找到连通片段，并将它们组合成完整的单词。

我们的主要贡献是提出了一种新颖的分段链接检测方法。通过实验表明，该方法与其他现有方法相比具有明显的优势：1)鲁棒性：SegLink以简单美观的方式对定向文本的结构进行建模，对复杂背景具有较强的鲁棒性。我们的方法在标准数据集上取得了极具竞争力的结果。特别是，在ICDAR 2015附带(挑战4)基准[12]上，它在f-Measure(75.0%比64.8%)方面远远超过以前的最好水平[12]；2)效率：SegLink的效率很高，因为它是单程全卷积设计。它每秒处理20多幅512x512大小的图像；3)通用性：无需修改，SegLink就能够检测出中文等非拉丁文本的长行。我们在一个多语言数据集上演示了这一功能。

2 Related Work

文本检测在过去的几年里，人们对文本检测问题投入了大量的研究工作[24，23，17，17，25，7，8，30，29，2，9，6，22，26]。根据基本的检测目标，以往的检测方法大致可以分为三类：基于字符的、基于单词的和基于行的。基于字符的方法[17、23、24、10、7、8]检测单个字符并将它们分组为单词。这些方法通过对由区域提取算法提取的候选区域进行分类或通过对滑动窗口进行分类来发现字符。这种方法通常涉及将字符分组为单词的后处理步骤。基于单词的方法[9，6]直接检测单词边界框。它们通常具有与最近基于CNN的通用目标检测网络类似的管道。虽然这些方法获得了极好的检测精度，但在应用于一些非拉丁文文本(如我们前面提到的中文)时，性能可能会下降。基于行的方法[29，30，26]使用一些图像分割算法找到文本区域。它们还需要词分割和/或误报去除的复杂后处理步骤。与以前的方法相比，我们的方法在一次前向网络遍历中联合预测段和链路。管道要简单得多，也干净得多。此外，该网络是端到端可培训的。

我们的方法在精神上类似于最近的一项工作[22]，它通过CNN结合递归的神经层找到并分组一系列精细的文本提案来检测文本行。相反，我们只使用卷积层来检测定向片段，产生了更好的灵活性和更快的速度。此外，我们还检测到链接特别使用了同样强的CNN特征用于分段，从而提高了鲁棒性。

目标检测文本检测可以看作一般目标检测的一个特殊实例，这是计算机视觉中的一个基本问题。大多数最先进的检测系统或者使用CNN[5，4，19]对一些类别不可知的对象建议进行分类，或者直接从一组预置框(例如锚框)中回归对象边界框[18，14]。

我们的网络架构继承了最近的目标检测模型SSD[14]的架构。SSD提出了利用卷积预测器在多个特征层上检测目标的思想。我们的模型也以非常相似的方式检测片段和链接。尽管模型相似，但我们的检测策略有很大的不同：SSD直接输出对象边界框。另一方面，我们采用自下而上的方法，检测单词或文本行的两个组成元素，并将它们组合在一起。

3 Segment Linking

我们的方法使用前馈CNN模型来检测文本。给定大小为Wi×hi的输入图像i，该模型输出固定数量的片段和链接，然后根据它们的置信度分数对其进行过滤，并将其组合到整个单词边界框中。边界框是由b=(xb，yb，wb，hb，θb)表示的旋转矩形，其中xb表示中心坐标，wb表示宽度和高度，θ表示旋转角度。

3.1. CNN Model

图2显示了网络架构。我们的网络使用预先训练好的VGG-16网络[21]作为其主干(cv1到pool5)。在[14]之后，VGG-16的全连接层被转换成卷积层(FC6到卷积6；FC7到卷积7)。紧随其后的是几个额外的卷积层(卷积81到卷积11)，它们用更大的感受野提取更深的特征。它们的配置在图2中指定。

在6个特征层上检测到分段和链接，这6个特征层是vv43、v7、v82、v92、v102和v11。这些特征层提供不同粒度的高质量深层特征(最细的有43个，最粗的有11个)。将3×3核的卷积预测器添加到6层中的每一层以检测分段和链路。我们通过l=1,…6来索引要素图层和预测器.

分段检测段也是定向框，由s=(xs，ys，ws，hs，θs)表示。我们通过估计输入图像上的一组默认框[14]的置信度分数和几何偏移量来检测片段。每个默认框都与一个要素地图位置相关联，并根据该位置的要素预测其分数和偏移量。为简单起见，我们只将一个默认框与一个要素地图位置相关联。

考虑要素地图大小为wl×hl的第l个要素图层。此地图上的位置(x，y)对应于图像上以(xa，ya)为中心的默认框，其中
$x_{a}=\frac{w_{I}}{w_{l}}(x+0.5) ; \quad y_{a}=\frac{h_{I}}{h_{l}}(y+0.5) (1)$
默认框的宽度和高度都设置为常数al。

卷积预测器产生7个通道用于分段检测。其中，对2个通道进行进一步的Softmax归一化，得到(0，1)中的分段得分。其余5个是几何偏移。考虑到地图上的一个位置(x，y)，我们用(∆xs，∆ys，∆ws，∆hs，∆θs)表示该位置上沿深度的向量。然后，此位置处的线段将通过以下方式计算：
$\begin{array}{l}{x_{s}=a_{l} \Delta x_{s}+x_{a}} (2)\\ {y_{s}=a_{l} \Delta y_{s}+y_{a}} (3)\\{w_{s}=a_{l} \exp \left(\Delta w_{s}\right)} (4)\\{h_{s}=a_{l} \exp \left(\Delta h_{s}\right)} (5)\\{\theta_{s}=\Delta \theta_{s}}(6)\end{array}$
在这里，常量控制输出分段的比例。它应该根据第l层的接收场大小来选择。我们使用一个经验公式来选择这个大小：Al=γWi wl，其中γ=1.5。

层内链路检测链路连接一对相邻网段，表示它们属于同一个词。这里，相邻段是在相邻要素地图位置检测到的那些段。链接不仅是将片段组合成整个单词所必需的，而且还有助于分隔两个相邻的单词-在两个相邻的单词之间，链接应该被预测为否定的。

我们使用与检测段相同的特征来显式地检测段之间的链路。由于我们在要素地图位置仅检测到一个线段，因此可以通过它们的地图位置(x，y)和图层索引l(由s(x，y，l)表示)来索引线段。如图3.A所示，我们将线段的层内邻居定义为其在同一要素图层上的8个连接邻居：
$\mathcal{N}_{s(x, y, t)}^{w}=\left\{s^{\left(x^{\prime}, y^{\prime}, t\right)}\right\}_{x-1 \leq x^{\prime} \leq x+1, y-1 \leq y^{\prime} \leq y+1} \backslash s^{(x, y, l)} (7)$
当分段被局部检测时，输入图像上的一对相邻分段也是相邻的。还通过卷积预测器检测链路。预测器输出到8个连接的相邻网段的链路的16个信道。每隔2个通道进行Softmax归一化，以获得一个链接的分数。

（三）SegLink----2017ECCV论文解读
图3.层内和跨层链路。(A)Conc82上的一个位置(黄色积木)及其8个相连的邻居(带填土和不带填充物的蓝色积木)。检测到的层内链接(绿线)连接同一层上的一个线段(黄色方框)及其两个相邻线段(蓝色方框)。(B)交叉层链路连接cv9 2上的一个网段(黄盒)和cv8 2上的两个网段(蓝盒)。

跨层链路检测在我们的网络中，在不同的要素层上以不同的尺度检测数据段。每层处理一定范围的比例。我们使这些范围重叠，以便不会错过其边缘处的比例。但结果是，可以在多个层上同时检测到相同单词的片段，从而产生冗余。

为了解决这个问题，我们进一步提出了另一种类型的链路，称为跨层链路。跨图层链接将两个要素图层上的线段与相邻索引连接起来。例如，检测到vv4 3和vv7之间的跨层链路，因为它们的索引分别是l=1和l=2。

这种对的一个重要属性是第一层的大小始终是第二层的两倍，因为它们之间存在下采样层(最大合用或跨2卷积)。请注意，仅当所有要素图层的大小均为偶数时，此特性才有效。在实践中，我们通过使输入图像的宽度和高度均可被128整除来确保此属性。例如，将1000x800图像的大小调整为1024x768，这是最接近的有效大小。

如图3.B所示，我们将网段的跨层邻居定义为
$\mathcal{N}_{s(x, y, l)}^{c}=\left\{s^{\left(x^{\prime}, y^{\prime}, l-1\right)}\right\}_{2 x \leq x^{\prime} \leq 2 x+1,2 y \leq y^{\prime} \leq 2 y+1}(8)$
它们是前一层上的分段。每个数据段都有4个跨层邻居。该对应关系由两层之间的双倍大小关系保证。

同样，通过卷积预测器检测跨层链路。预测器为跨层链路输出8个通道。每2个通道进行Softmax归一化，以产生跨层链路的分数。在要素层l=2…6上检测到跨层链路。但不在l=1(Conv43)上，因为它没有前面的要素图层。

通过跨层链路，可以连接不同比例的网段，并在以后将其合并。与传统的非最大值抑制相比，跨层链接提供了一种可训练的冗余加入方式。此外，它与我们的链接策略无缝配合，并且在我们的框架下很容易实现。
（三）SegLink----2017ECCV论文解读
图4.卷积预测器的输出通道。该块显示深度为31的wl×hlmap。l=1的预测器不输出用于Corss层链路的信道。

卷积预测器的输出放在一起，图4显示了卷积预测器的输出通道。预测器由卷积层实现，后跟一些分别归一化网段和链路分数的Softmax层。此后，我们网络中的所有层都是卷积层。我们的网络是完全卷积的。

3.2. Combining Segments with Links

在前馈之后，网络会产生一定数量的网段和链路(数量取决于映像大小)。在合并之前，输出段和链接根据它们的置信度分数进行过滤。我们为分段和链路设置了不同的过滤阈值，分别为α和β。从经验上讲，我们的模型的性能对这些阈值不是很敏感。任何一个阈值与其最佳值的0.1偏差都会导致小于1%的f-Measure下降。

以过滤后的片段为节点，过滤后的链接为边，在其上构造一个图。然后，对该图执行深度优先搜索(DFS)以找到其连通分量。每个组件都包含一组通过链路连接的线段。用B表示连接的组件，该组件内的分段按照ALG1中的步骤合并。
（三）SegLink----2017ECCV论文解读

4 Training

4.1. Groundtruths of Segments and Links

该网络由基本事实片段和链接的直接监督进行训练。基本事实包括所有默认框的标签(即其相应段的标签)、它们到默认框的偏移以及所有层内和层间链接的标签。我们从基本事实词边界框中计算它们。

首先，我们假设输入图像上只有一个基本真实词。当1)框的中心在词边界框内时，缺省框被标记为正框；2)框大小与词高度h之间的比率满足：
$\max \left(\frac{a_{l}}{h}, \frac{h}{a_{l}}\right) \leq 1.5（9）$
否则，默认框被标记为否定。

接下来，我们考虑多个单词的情况。如果默认框不满足任何单词的上述标准，则将其标记为否定。否则，它被标记为正数，并与大小最接近的单词匹配，即Eq9左侧的值最小的单词。

（三）SegLink----2017ECCV论文解读
图5.在给定默认框和单词边界框的情况下，计算round true片段的步骤。

偏移量是在正默认值框上计算的。首先，我们按照图5所示的步骤计算基本事实段。然后，我们求解方程2到等式6以获得地面实况偏移。

链路(层内或跨层)被标记为正，仅当1)连接到它的两个缺省框都被标记为正；2)两个缺省框与相同的词匹配。

4.2. Optimization

目的通过同时最小化分段分类、偏移量回归和链接分类的损失来训练网络模型。总体而言，损失函数是三个损失的加权和：
$\begin{aligned}L\left(\mathbf{y}_{s}, \mathbf{c}_{s}, \mathbf{y}_{l}, \mathbf{c}_{l}, \hat{\mathbf{s}}, \mathbf{s}\right)=& \frac{1}{N_{s}} L_{\mathrm{conf}}\left(\mathbf{y}_{s}, \mathbf{c}_{s}\right)+\lambda_{1} \frac{1}{N_{s}} L_{\operatorname{loc}}(\hat{\mathbf{s}}, \mathbf{s}) \\&+\lambda_{2} \frac{1}{N_{l}} L_{\mathrm{conf}}\left(\mathbf{y}_{l}, \mathbf{c}_{l}\right)\end{aligned}（10）$
在这里，分析所有分段的标签。如果第i个缺省框被标记为正，则Y(I)s=1，否则为0。同样，ylis链接的标签。Lconfit是预测的段和链路分数上的SoftMax损失，分别是CS和C1。Llocis是预测的分段几何ˆ和基本事实s上的平滑L1回归损失[4]。分段分类和回归的损失由NS归一化，NS是正默认框的数量。通过正向链路N1的数量来归一化链路分类上的损失。实际上，权重常数λ1和λ2都被设置为1。

在线硬否定挖掘无论是片段还是链接，否定都占据了训练样本的大部分。因此，对正负样本进行硬性负挖掘是平衡正负样本的必要手段。我们遵循[20]中提出的在线硬否定挖掘策略，使否定与肯定的比例最大保持在3：1。对片段和链接分别进行硬否定挖掘。

数据增强我们采用类似于SSD[14]和YOLO[18]的在线增强管道。训练图像被随机裁剪到与任何基本事实词的最小Jaccard重叠为0的补丁上，在加载到批中之前，裁剪的大小被调整到相同的大小。对于定向文本，在单词的轴对齐边界框上执行扩充。对于每个采样，重叠o从0(无约束)、0.1、0.3、0.5、0.7和0.9中随机选择。裁剪大小是从原始图像大小的[0.1，1]中随机选择的。训练图像不会水平翻转。

5 Experiments

在本节中，我们使用ICDAR 2015附带文本(挑战4)、MSRA-TD500和ICDAR 2013这三个公共数据集的标准评估协议对所提出的方法进行评估。

5.1. Datasets

野外合成文本(SynthText)[6]包含800，000个合成训练图像。它们是通过将自然图像与使用任意字体、大小、方向和颜色呈现的文本混合在一起创建的。文本被呈现并与精心选择的图像区域对齐，以获得逼真的外观。该数据集为字符、单词和文本行提供非常详细的批注。我们只使用数据集来预先训练我们的网络。

ICDAR 2015附带文本(IC15)[12]是ICDAR 2015稳健阅读比赛的挑战4。这一挑战的特点是由谷歌眼镜拍摄的附带场景文本图像，而不考虑位置、图像质量和视点。因此，数据集在文本方向、大小和分辨率上表现出很大的变化，这使得它比以前的ICDAR挑战困难得多。该数据集包含1000个训练图像和500个测试图像。注释以单词四边形的形式提供。

MSRA-TD500(TD500)[25]是第一个关注定向文本的标准数据集。该数据集也是多语言的，包括中文和英文文本。该数据集由300个训练图像和200个测试图像组成。与IC15不同的是，TD500是在文本行级别进行标注的。

ICDAR 2013(IC13)[13]主要包含水平文本，有些文本略有方向。该数据集已被广泛用于评价文本检测方法。它由229个训练图像和233个测试图像组成。

5.2. Implementation Details

我们的网络在SynthText上进行了预先训练，并在真实数据集(稍后指定)上进行了优化。它由动量为0.9的标准SGD算法进行优化。无论是预训练还是精调，随机裁剪后的图像大小均为384×384。由于我们的模型是完全卷积的，我们可以将其训练成特定的大小，并在测试期间将其应用于其他大小。批次大小设置为32。在预训练中，对于前60k次迭代，学习设置为10−3，然后对于其余30k次迭代，学习设置为10−4。在微调过程中，对于5-10k次迭代，学习速率固定为10−4。微调迭代的次数取决于数据集的大小。

由于准确率和召回率的权衡以及不同数据集评估协议的差异，我们选择最佳阈值α和β来优化f-Measure。除了IC15之外，阈值是通过网格搜索在不同的数据集上分别选择的，在坚持验证集上执行0.1步。IC15不提供离线评估脚本，所以我们唯一的办法就是向评估服务器提交多个结果。

我们的方法是使用TensorFlow[1]r0.11实现的。所有实验都在工作站上进行，该工作站配备Intel Xeon 8核CPU(2.8 GHz)、4块Titan X显卡和64 GB RAM。在4个GPU上并行运行，训练一批大约需要0.5s。整个培训过程只需要不到一天的时间。

5.3. Detecting Oriented English Text

首先，我们在IC15上评估SegLink。预训练模型在IC15的训练数据集上进行了10k迭代的微调。测试图像的大小调整为1280×768。我们将段和链接的阈值分别设置为0.9和0.7。性能由官方中央提交服务器（http://rrc.cvc.uab.es/?ch=4）进行评估。为了满足对提交格式的要求，将面向输出的矩形转换为四边形。
（三）SegLink----2017ECCV论文解读

表1列出并比较了所提出的方法和其他最新方法的结果。一些结果是从在线排行榜中获得的。 SegLink的表现远胜于其他同类产品。在f测度方面，它的表现优于第二佳的10.2％。考虑到某些方法具有比SegLink更高甚至更高的精度，因此改进主要来自召回率。如图6所示，我们的方法能够区分背景非常混乱的文本。另外，由于其明确的链接预测，SegLink可以正确分离彼此非常接近的单词。

5.4. Detecting Multi-Lingual Text in Long Lines

我们进一步演示了SegLink检测非拉丁文字中长文本的能力。本实验采用TD500作为实验数据集，因为它由定向文本和多语言文本组成。TD500的训练集只有300幅图像，不足以对我们的模型进行微调。我们将TD500的训练集和IC15的训练集混合在一起，每批都有一半的图像来自每个数据集。对预先训练的模型进行8k次迭代优化。测试图像大小调整为768×768。阈值α和β分别设置为0.9和0.5。性能分数由官方开发工具包计算。

根据表2，SegLink在精度和f测度方面得分最高。得益于其全卷积设计，SegLink的运行速度为8.9 FPS，比其他产品快得多。 SegLink也很简单。 SegLink的推理过程是检测网络中的单个前向通过，而先前的方法[25、28、30]涉及复杂的基于规则的分组或过滤步骤。

TD500包含许多混合语言(英文和中文)的长文本行。图7显示了SegLink如何处理此类文本。可以看出，沿着文本行密集地检测片段和链接。它们导致很难从传统的对象检测器获得的长边界框。尽管英文文本和中文文本在外观上有很大差异，但SegLink能够同时处理它们，而不需要对其结构进行任何修改。

5.5. Detecting Horizontal Text

（三）SegLink----2017ECCV论文解读
图7.TD500上的示例结果。第一行显示检测到的网段和链路。层内链接和跨层链接分别显示为红色和绿色线条。线段显示为不同颜色的矩形，表示不同的连接组件。第二行显示了组合框。

最后，我们评估SegLink在水平文本数据集上的性能。在IC13和IC15的组合训练集上对预训练模型进行5k迭代微调。由于IC13中的大多数文本具有相对较大的尺寸，因此将测试图像的尺寸调整为512×512。阈值α和β分别设置为0.6和0.3。为了匹配提交格式，我们将检测到的定向框转换为与轴对齐的边界框。

表3将SegLink与其他最先进的方法进行了比较。分数由中央提交系统使用“Deteval”评估协议计算。SegLink在fMeasure方面取得了非常有竞争力的结果。只有一种方法[22]在f度量方面优于SegLink。但是，[22]主要用于检测水平文本，不太适合定向文本。就速度而言，SegLink在512×512图像上的运行速度超过20FPS，远远快于其他方法。
（三）SegLink----2017ECCV论文解读

5.6. Limitations

SegLink的一个主要限制是需要手动设置两个阈值α和β。在实际应用中，阈值的最佳值是通过网格搜索找到的。简化参数将是我们未来工作的一部分。另一个弱点是SegLink无法检测到字符间距非常大的文本。图8.a，b显示了两个这样的情况。检测到的链路连接相邻网段，但无法链接远距离网段。

图8.c显示SegLink无法检测弯曲形状的文本。但是，我们认为这不是分段链接策略的局限性，而是目前只能产生矩形的分段合并算法的局限性。

6 Conclusion

我们提出了一种新的文本检测策略–SegLink，它是通过一个简单高效的CNN模型实现的。在水平、定向和多语言文本数据集上的优越性能很好地证明了SegLink是准确、快速和灵活的。在未来，我们将进一步挖掘其在检测弯曲文本等变形文本方面的潜力。此外，我们有兴趣将SegLink扩展为端到端识别系统。

（三）SegLink----2017ECCV论文解读