将数据用于人工智能时需要牢记的五件事
将数据用于人工智能时需要牢记的五件事
数据是新兴数据驱动和人工智能驱动经济中企业最重要的战略资产之一。 需要数据来衡量业务策略的效率,并从其运营中获取见解,还需要培训机器学习算法。 获取数据对于公司来说不是问题,问题是他们能否获得正确的数据,并且能够为他们提供非常希望的竞争优势。
许多公司没有意识到他们正在处理一堆糟糕或肮脏的数据。这些数据包含很多缺失的字段,格式不正确,数量众多的重复项,或者仅仅是不相关的信息。 IBM的研究估计,美国经济糟糕数据的年度成本高达3.6万亿美元。尽管如此,许多管理者确信他们正在坐在数据的金矿上,但实际上他们没有任何价值。
A:专注于产品
找到好的数据应该从产品本身开始。为了获得良好的数据,公司应该设计能够为用户贡献数据提供正确激励的产品。良好的可用性和用户体验将鼓励用户贡献有价值的信息。
您始终可以争取用户在回路模式,用户必须放弃他们的数据才能使用产品的功能。这正是谷歌和Facebook如何获得大量数据以换取其服务。用户甚至没有意识到他们正在免费赠送他们的数据,以便为先进的机器学习算法提供支持并不断改进软件。
构建优秀产品的最佳方式是在收集急需的数据的同时提供迭代改进。正如Zelvenskiy所说:“你可以看到亚马逊Alexa的发展,它背后的团队意识到了普通语音识别与识别一组简单预定义命令的能力之间的差异,而许多其他公司正在努力采用普通语音 承认和维护对话的能力,
B:定位正确的数据类型
让我们来看想要建立一个机器人的公司,该机器人会自动将图书馆书籍放在书架上。它有大量关于实际书籍内容的数据,它知道作者的姓名和书籍出版年份。但是,实际上,这些数据不足以实现书籍的自动排列。
机器人可以仅使用现有数据为书找到合适的书架。但是,它不知道书的尺寸,所以机器人很难判断书是否适合放在书架上。该公司从未想过要收集这些信息,因为图书馆工作人员可以很容易地确定该书是否适合这个空间。现在这家公司需要一个全新的数据集,它没有。这意味着公司必须为机器人配备一些评估书本尺寸的方法。虽然这不是不可能的,但项目预算和时间表将会改变。
这就是为什么你应该总是问自己,如果你有正确的数据类型有助于解决问题。
C:了解数据限制
通常,公司认为所有机器学习工程师都拥有相同的魔杖,以解决所有与数据相关的挑战。这不能离真相更远。回到图书馆的例子,自动评估物理对象的大小和重量的能力需要一组截然不同的技能和能力。可以训练机器人寻找合适架子的人员或系统与能够建立衡量和加重书籍能力的人员或系统不同。这种资源计划应该从项目开始的时候开始,而不是在一堆不适合书架的书籍下销毁机器。
D:充分利用现有的专业知识
人工智能只有在工程师和主题专家团队的努力工作完成后才能做得更好。智能解决方案的开发需要专家的意见,以了解和帮助理解现有数据并找出解决问题的原则。
即使是DeepMind AlphaGo Zero的最新突破,也不是绝对的展示,我们完全不需要人类专家。围棋游戏的规则是明确的,不能被对手破坏。即使机器没有经过人类专家的培训,游戏规则也被编入了代码中,所以它可以对抗自己来增强技能。在编程之前,构建软件的工程师成为游戏规则的专家。
根据Zelvenskiy的说法,“在AlphaGo Zero的情况下,我们没有专门的专家,因为比赛场地非常清晰,可以在一个晚上学习完整的规则,在现实生活中,工程师几乎不可能花费一个晚上,成为供应链,隐私法或涡轮机工程的专家。总的来说,AI项目需要一套明确定义的不可**的规则或标记的数据集,通常每一个都有一点点,弄清楚如何组合这些拼图游戏,仍然需要专家的意见。“
Zelvenskiy补充道:“不要误解我的观点,当一组工程师通过获取正确的数据集并学习足够的游戏规则成功地解决了这个难题时,就会有成功的故事,但我们依赖于生存偏见。”
E:管理数据并关闭循环
有一天,随着应用程序越来越流行,您的应用程序可能会开始生成大量数据。 为了避免陷入数据混乱,您应该从一开始就引入高效的数据仓库策略。 无论您的公司选择何种数据平台,您都应该在数据采集过程的每个阶段实施数据收集,清理和数据处理的高效流程。
一旦你拥有了一个好产品,不断涌入的数据和一个高效的数据管理基础架构,创建一个自我实现的良好数据预言将更容易。
利用产品用户提供的数据可以改进AI平台和应用程序功能,并鼓励客户贡献更多的良好数据。这将创建一个自我维持的数据生成系统,将您的公司变成真正的数据驱动型企业。
声明:本文翻译与国外网站,网站链接如下,仅作学习参考,请勿商用。
如想获取更多信息,可以关注如下公众号哦,很多有用的精彩文章分享。