点评:Google Cloud AutoML是真正的自动化机器学习
当您尝试为数据自动训练最佳的机器学习模型时,有AutoML或自动机器学习,然后有Google Cloud AutoML。 Google Cloud AutoML属于上述优势。
过去,我曾回顾过H2O 无人驾驶 AI , Amazon SageMaker和Azure机器学习AutoML 。 无人驾驶AI自动执行功能工程和超参数调整,并声称其性能与Kaggle主机一样好。 Amazon SageMaker支持超参数优化。 Azure机器学习AutoML自动扫过基本机器学习算法的功能,算法和超参数; 单独的Azure机器学习超参数调整工具使您可以清除现有实验的特定超参数。
[避免机器学习失败: 使机器学习失败的6种方法 。 • 机器学习课程:5家公司分享了他们的错误 。 ]
这些都是不错的选择,但是Google Cloud AutoML进入了一个完全不同的水平,并为您标记的数据定制了经过谷歌测试,高精度的深度神经网络。 Google Cloud AutoML不会自动从数据中训练模型,而是从头开始,而是实现自动深度传输学习(这意味着它从对其他数据进行训练的现有深度神经网络开始)和神经体系结构搜索(意味着它找到了额外的正确组合)网络层)用于语言对翻译,自然语言分类和图像分类。
在每个领域,谷歌已经有一个或多个基于深度神经网络和大量标记数据的预训练服务。 对于未修改的数据,这些方法可能会很有效,因此您应该对其进行测试以节省时间和金钱。 如果这些服务无法满足您的需求,则Google Cloud AutoML可以帮助您创建一个可以做到的模型,而无需您知道如何执行转移学习或什至如何创建神经网络。
与从头开始训练神经网络相比,转移学习具有两个主要优点。 首先,由于网络的大多数层都已经过良好的训练,因此需要较少的数据进行训练。 其次,它运行得快得多,因为它仅优化了最终层。
Google Cloud AutoML翻译
因此,例如,您可以使用Google Cloud AutoML Translation迁移学习在一两个小时内针对1,000个两种语言的句子对进行训练。 定制的基础神经网络NMT在数百个CPU和GPU上花了数百到数千个小时从头开始为每种语言对进行训练。 请注意,目前训练定制翻译模型的每小时费用为$ 76。
《 AutoML Translation入门指南》介绍了Google Cloud AutoML Translation可以做什么的基本知识,以及使用它的原因。 本质上,它出于利基目的改进了现有的通用翻译模型。 您不需要接受Google已经支持的约一百种语言的常规翻译的任何培训,但是,如果您想为专业词汇或用法创建翻译网络,则需要进行迁移学习。 Google提到的一个例子是实时翻译对时间敏感的财务文件。 通用翻译不会总是将正确的艺术术语用于财务。
准备带有句子对的文件后,设置Google Cloud AutoML Translation的培训是一个五步过程,如以下屏幕截图所示。 我在AutoML Translation快速入门中将8,720对英语-西班牙语对用于应用程序提示,格式设置为制表符分隔值文件。 Google Cloud AutoML Translation还支持句子对基于XML的翻译记忆库eXchange(TMX)格式。
您会注意到,没有选项可以控制用于执行培训的硬件(CPU,GPU,TPU和内存)。 这是故意的:培训将使用所需的内容。 也没有任何选项可以控制要添加到模型中的神经网络层,要运行的时期数或停止条件。
模型训练完成后,您可以查看基本模型的BLEU得分的改进(如果一切顺利),并尝试使用模型进行预测。 这次培训耗时0.9小时(少于预期),费用为$ 68.34。
Google Cloud AutoML自然语言
Google自然语言API接收文本并预测实体,情感,语法和类别(来自预定义列表)。 如果您的文本分类问题不适合所有问题,则可以提供一组带标签的语句,然后使用Google Cloud AutoML自然语言创建自定义分类器。
要设置AutoML Natural Language用于培训,您需要获取数据,对其进行标记,将其准备为CSV文件并运行培训。 如果愿意,还可以使用AutoML自然语言UI上载和标记数据。
模型训练完成后,您可以查看模型的精度,召回率和混淆矩阵。 您也可以为所需的精度/调用权衡调整分数阈值。 为了最大程度地减少误报,请优化召回率。 为了最大程度地减少误报,请优化精度。
培训耗时3.63小时(大约与预期的一样),费用为$ 10.88。
Google Cloud AutoML Vision
Google Cloud Vision API将图像分类为数千个预定义类别,检测图像中的单个对象和面部,并查找和读取图像中包含的打印文字。 Google Cloud AutoML Vision允许您定义和训练自己的类别列表。 一些现实生活中的应用包括从无人机照片中检测风力涡轮机的损坏,并对废物进行分类。
要设置Google Cloud AutoML Vision数据集,您必须为每个类别至少获取100张图像,并将其标记为CSV文件。 所有图像和CSV文件都必须位于Google Cloud Storage存储桶中。
我将此培训设置为最多运行一个小时,一个月最多可免费使用10个模型。 看到免费培训取得了良好的效果,我感到很惊讶,也没有为继续提高精度和召回率而继续进行培训。
Google Cloud AutoML提供了方便的选项来执行目标翻译,自定义文本分类和自定义图像分类。 如果您为它们提供足够准确的标记数据,那么每个API都可以很好地工作,并且比建立自己的神经网络模型甚至自己的迁移学习模型所需的时间和技能少得多。 使用Google Cloud AutoML,您实际上是在创建TensorFlow模型,而不必了解有关TensorFlow,Python,神经网络体系结构或培训硬件的任何知识。
有很多方法可以使数据准备工作出错,但是幸运的是,这三个API都检查最常见的错误,例如,任何类别的样本过多或过多。 训练后显示的诊断信息可以使您很好地了解模型的运行状况,并且可以通过添加更多带标签的训练数据并重新运行训练来轻松调整模型。
-
费用: Google Cloud AutoML翻译:培训费用为每小时$ 76.00,翻译后每500K个字符每百万字符翻译费用为$ 80。 Google Cloud AutoML自然语言:培训费用为每小时$ 3.00,分类数据(前30K后为每千条文本记录$ 5)。 Google Cloud AutoML Vision:训练后的第一个小时每小时收费$ 20,分类后的第一千个每小时收费$ 3。
平台: Google Cloud Platform