大创技术
图片内的标识,人物,物品,文字的OCR识别
借助由Google的深度学习模型提供支持Cloud Vision,并提供先进的计算机视觉功能,包括:
标签检测
面部和地标检测
光学字符识别(OCR)
显式内容检测
使用标签检测使图像可搜索
标签检测 是Cloud Vision和Cloud AutoML Vision中的图像标注功能。此功能可预测描述图像的最合适标签。该功能可识别数千个不同对象类别中的宽对象集,然后 在图像中返回 标签注释或每个检测到的标签。它还返回以下内容:
标签标识符:标签的不透明实体ID。
标签描述:标签的文字描述,例如“狗”。
置信度分数:与每个返回的标签注释相关联的数字,表示Cloud Vision对标签准确性的评估。置信度分数范围从0(无信心)到1(非常高信度)。
使用Cloud AutoML Vision,您可以提供标记数据集,以便训练使用标签执行自定义标签检测的模型。通过将标签检测与搜索索引相结合,您可以以新的方式搜索图像。下图说明了一种这样的方法:
使用标签进行分面搜索
分面搜索是一种在搜索界面中公开Cloud Vision和Cloud AutoML Vision标签(在本文中称为图像标签)的方法。使用分面搜索时,图像标签和标签计数与搜索结果一起显示为可导航的搜索构面。用户通过查询不同的索引字段来启动常规关键字搜索后,他们可以使用搜索构面将搜索结果细化为包含特定图像标签的图像。
搜索界面还详细说明了每个标签细化中包含的结果数量。当结果包含大量常用标签时,分面搜索特别有效。
分面搜索示例
使用简单的关键字(如“城市”)搜索图像时,搜索结果中包含数千张图像。在这种情况下,您需要添加关键字来缩小搜索结果范围,但您可能不确定要添加哪些关键字。分面搜索可帮助您选择使用关键字“city”搜索到的图像附加的其他标签。这些标签被视为构面,并且经常出现的构面显示在候选列表中以供选择。
例如,分面搜索可能会显示通常附加到搜索结果图像的前十个标签的列表。此列表允许您从预填充列表中选择其他关键字。以下屏幕截图显示了已部署的示例。
使用标签对图像进行分类
如果API已经识别您的类别并将其作为图像标签返回,则Cloud Vision标签检测是理想的选择。如果您的应用程序处理与Cloud Vision广泛理解的各种主题相关的图像,则标签检测也很有用。
在这两种情况下,您都可以使用Cloud Vision返回的图像标签,以便以不同的方式确定更广泛的类别上下文 - 例如,图像标签,如“污染”,“工厂”,“垃圾填埋场”和“冰山” “可以用来确定更广泛的类别,例如”气候变化“。有关详细信息,请参阅 本文档后面的使用Cloud Vision对图像进行分类。
Cloud AutoML Vision是使用用户提供的标记培训集进行自定义图像分类的理想选择。Cloud AutoML Vision中的自定义标签检测功能返回培训集中包含的用户定义标签,您可以使用这些标签创建自定义图像类别。
如果Cloud Vision标签检测确实为您的分类任务返回了适当的标签,我们建议使用Cloud AutoML Vision来培训自定义图像模型。
将检测到的标签映射到预定类别
Cloud Vision标签检测返回图像中的大量类别,而不是特定预定类别的分数。将标签映射到类别的一种简单方法是将Cloud Vision标签映射到特定类别,其中每个类别与一个或多个特定Cloud Vision标签相关联。(对于解决方案的其余部分,此方法称为固定标签到类别映射。)在此模式中,将Cloud Vision返回的标签与定义每个类别的单词列表和与最合适的图像相关联的图像进行比较由图像标签置信度分数确定的类别。
Cloud Vision为图像返回一个或多个标签。对于每个图像,将检测到的图像标签与定义给定类别的单词进行比较。当存在一个或多个直接匹配时,将对每个匹配标签的Cloud Vision置信度得分求和,从而为每个类别创建类别置信度得分。该分数是定义预定类别映射到给定图像的返回Cloud Vision标签的单词的数值表示。选择具有最高类别置信度值的类别作为图像类别并添加到搜索索引中。在平局的情况下,您可以将图像添加到限定类别或定义额外的启发式,以便将图像唯一地映射到单个类别。
下图说明了一小组预定类别的这种方法。
使用单词向量找到最合适的类别
根据Cloud Vision返回的检测到的标签的种类,可能难以在标签和类别之间创建固定映射。在这种情况下,您可以使用另一种方法来衡量标签之间的概念相似性,而不是 直接比较标签值。
考虑将“鸟”,“鹦鹉”,“脊椎动物”和“动物群”作为检测到的图像标签返回的示例。可以将这些标签与与以下预定类别集相关联的代表性标签进行比较:
使用Cloud AutoML Vision对图像进行分类
虽然Cloud Vision标签检测可检测图像中的大量类别,但您的要求可能包括Cloud Vision未检测到的类别。这些类别可能包括高度特定于域的标签,例如专用用例的标签(例如,对专有机器部件进行分类)。在这种情况下,我们建议使用Cloud AutoML Vision来训练具有用户提供的数据集的自定义图像模型。
使用Cloud AutoML Vision训练自定义图像模型时,请确保您的训练图像适合Cloud AutoML Vision,并且代表预测中使用的图像。为了说明这一要求,旨在检测动物但仅训练有四条腿生物图片的图像模型不太可能将鸟类识别为动物。为了进行比较,Cloud Vision现有的标签检测足够广泛,可以通过将“动物”作为特定标签返回,或者通过返回可以导出正确类别的相关标签来解释这种差异。(请参阅 本文档前面的使用Cloud Vision对图像进行分类。)
下图显示了将Cloud AutoML Vision合并到图像搜索应用程序中的解决方案体系结构。在下面的示例中,训练数据集中的用户定义标签直接用作图像类别。