对于极少数不熟悉术语“杀手级应用”的人,我们将从定义开始。梅里亚姆-韦伯斯特将“杀手级应用程序”定义为“一种非常有价值或受欢迎的计算机应用程序,它保证了与之相关的技术的成功。”用通俗的话来说,它是你必须拥有和使用的“东西”,要么是因为你想要,要么是因为其他人都在使用它。为了使用它,你必须获得运行它的设备。这款杀手级应用是“最后一根稻草”,它促使那些缓慢采用和不愿反对这项技术的人最终采用它。如果我所有的朋友和家人都在发短信,而我是唯一被遗漏的,我可能需要一部手机开始发短信——不管喜欢与否。据说电子表格是个人电脑的杀手级应用,电子邮件是互联网接入的杀手级应用(尽管在这些话题上有很多争论)。
多年来,数据治理一直是我们知道应该做的事情,因为它是正确的事情,但不知何故,它从未得到应有的优先权。这就像运动、用牙线清洁或吃蔬菜(取决于你的喜好)。我们这样做了,但不一定是带着激情,也不一定是像我们应该做的那样有规律、有深度。
随后出现了各种形式和实践的人工智能(AI):机器学习、深度学习、人工神经网络、强化学习、生成性对抗网络、预测分析、推荐系统、自然语言处理等等。所有这些实践都需要数据。AI承诺在商业模式、客户体验、个性化、预防性维护、自动化、效率和许多其他领域取得改变游戏规则的进步。麦肯锡公司(McKinsey and Company)2018年9月的一份报告预测,到2030年,人工智能(AI)将推动全球经济增长13万亿美元,每年为全球GDP增加约1.2%。简言之,忽视人工智能的公司会自担风险。这就是说,由于风险如此之高,而且被“跳跃”的风险非常真实,很少有公司忽视人工智能。问题不是“是否”,而是如何应用人工智能。
坏数据≠ 好AI
我们经常听说人工智能系统会随着更多的数据而变得更好。这是正确的。但我们不常听到的是,数据必须是好的数据(除非你是一个数据科学家,已经花了90%的时间清洗和清理数据——那么对好的数据的追求就是你的生活)。随着关于人工智能模型中隐性和无意识偏见的报告的出现,我们才刚刚开始听到人工智能模型中糟糕数据的影响。随着人工智能在企业内部越来越多的领域被嵌入,随着决策变得越来越基于人工智能和自动化,企业继续使用错误数据的后果将变得更加严重。
为了让这更真实,让我们看看在一些常见的AI用例中坏数据的后果。
首先,让我们来看一个使用照片的简单示例。如果我们训练机器学习算法来识别橙子,我们在训练数据集中错误地将一大堆苹果标记为橙子,那么模型将错误地“学习”,并认为苹果是橙子。将这一概念应用于面部识别或自动驾驶汽车,潜在的负面后果是不言而喻的。
如果我们正在建立一个推荐系统,并且在客户购买时使用了错误的产品代码,那么我们最终可能会向客户推荐错误的产品。推荐错误的产品或不合适的产品可能比不推荐任何产品对客户关系的损害更大。
如果我们正在建立一个预测人力资源流失的系统,而我们没有关于薪酬、加班、工作与生活平衡、工作满意度、晋升等方面的良好数据,那么我们可能会失去优秀的人才,如果我们的预测模型有更好的数据,这些人才本可以留下来。
如果我们使用机器学习对我们的供应链进行预测,基于过去的客户支出模式,而我们有糟糕的客户订单数据,那么我们的预测将是错误的,我们可能会过度购买和库存。
如果我们正在构建一个可以预测机器何时需要维修的人工智能系统,并根据人工智能模型的预测自动派遣现场服务技术人员,我们可能会浪费大量的钱,让技术人员去调查健康的机器。
如果我们正在创建一个客户个性化系统,而我们的客户数据很糟糕,那么我们可能会弊大于利(比如对Michele说“你好,Michael”)。
简单地说,与不良数据和导致不良数据的做法一起生活的风险已经上升。在人工智能、机器学习和决策自动化时代,糟糕数据的后果实在是太严重了。
数据是一种有价值的业务资产,应该像对待资产一样对待它。好的数据是人工智能和机器学习的基础。事实上,人工智能可能是一款“杀手级应用”,能推动即便是最平庸的公司也接受数据文化,并改善数据治理和数据质量。