请让这个 AI 不那么准确
无论是通过亚马逊的“类似你的客户”,Tiktok 的内容算法还是 Netflix 的主页,我们在许多日常互动中都被机器认为我们“想要看到”的内容所服务。Netflix 希望我们快速找到我们愿意观看(并且更好的是连续观看)的东西,这样我们就会留在他们的平台上,并选择他们来满足我们更多的观看需求。如我之前提到的,人们发现准确性的概念是直观的。随着对人工智能(AI)的关注增加以及人们对输出可靠性或准确性
原文:
towardsdatascience.com/please-make-this-ai-less-accurate-47c4f1b0356a
准确性是那些每个人直觉上认为他们理解,并且大多数人认为越高越好的词语之一。
随着对人工智能(AI)的关注增加以及人们对输出可靠性或准确性失误的日益关注,更多的人了解数据产品,如 AI,不遵循其他技术的一致性或准确性规则是很重要的。
混淆矩阵
为了说明,让我介绍“混淆矩阵”的概念。这对于任何为分类目的构建预测模型的数据科学家来说都非常熟悉。这可能对其他人来说是新的,但我发现这个概念、方法和涉及的人机/商业互动是了解机器学习中更广泛的准确术语的有用案例研究。这是一个有助于理解这些术语的细微差别和权衡的有用视觉工具。
作者提供的混淆矩阵模板
当我们谈论总准确率时,我们指的是所有预测中正确的预测数量(上方绿色方框的总和)除以所有总预测数量(上方四个方框的总和)。因此,这就是你可能听到像“我们的怀孕测试准确率为 99%”这样的术语的地方。它是在谈论所有测试预测的准确性,无论是说用户怀孕还是不怀孕。
当你试图了解“不准确”的百分比位于剩下的两个红色方框中的哪一个时,细微差别就会出现。
对于罕见事件,你可以通过预测该事件永远不会发生(不需要模型)来达到非常高的准确率。然而,对于不同的模型和用例,不准确相关的成本或风险并不相等或不一致。
简而言之,一个准确率较低的模型可能是有意为之,因为你希望减少在某个方向或另一个方向上误预测的频率。在这样做的时候,你必须选择在整体模型准确率上做出妥协。
预测(或分类)某人是怀孕的,然后出错,或者反过来,哪个风险更大?
当某人确实患有癌症时,诊断他们没有癌症是否更危险?
将某事物标记为仇恨言论并将其从平台上删除,或者不这样做,哪个更有害?
在这些例子中,有些有明显的答案,而在其他例子中,你会发现两个人意见不一致。这表明了在处理不准确预测时,所涉及的赌注以及决策的复杂性都存在一个范围。对某人的错误可能是对另一个人的特性。
聊天机器人和 LLMs
要从相对简单的分类模型案例转变,目前广泛讨论的是大型语言模型(LLM)输出中的“幻觉”。对于一些用户来说,这些幻觉被认为是如此严重,以至于他们已经停止使用这些工具,担心无法识别的幻觉。然而,一些专家声称这些是 AI 设计的一部分。这篇文章在《科学美国人》中强调,聊天机器人被开发和训练来响应,即使他们的响应不准确,他们也在做他们被训练去做的事情。不幸的是,对于没有预料到的用户来说,他们通常会像给出正确答案一样自信地给出错误答案。就像他们试图复制的那些人一样。
多亏了 ChatGPT 迅速成为主流应用的普及,LLM 的例子在公共讨论中得到了展现,而许多其他模型类型并没有这样的机会。大众没有同样的机会熟悉准确或不准确预测的各种现实,也没有机会讨论它们的利弊。当然,这并不意味着它们不存在。
权衡
在构建、部署或实际上使用人工智能或模型输出时,最重要的理解是“它试图实现什么?”。只有通过理解目标,我们才能构建出能够提高我们负责任地实现这些目标的能力,而不依赖于技术。同样,只有理解用例背后的决策,用户才能负责任地与输出互动。
小心你所说的话,图像由作者创建
每个模型或 AI 实例下面都是一个数据优化问题。根据你的数据构成,在某些情况下,你可以构建出极其精确的模型,这些模型会给你你优化方向上的精确结果。Meta 和 Google 广泛采用的这一例子是自动广告投放技术。在设置活动时,你要求一个特定的转化或结果。如果你选择点击,那么你将得到点击。这些点击可能不会转化为对你业务有价值的成果,在某些情况下甚至可能包括一些机器人,但这是你要求模型为你提供这些时所承担的风险。
推荐引擎是我们经常与之互动的另一个非常常见的模型。无论是通过亚马逊的“类似你的客户”,Tiktok 的内容算法还是 Netflix 的主页,我们在许多日常互动中都被机器认为我们“想要看到”的内容所服务。但这真的是我们想要的吗?还是这符合公司的目标?在亚马逊的情况下,他们希望我们购买,理想情况下购买比替代品利润更高的东西。Tiktok 希望屏幕上的眼睛尽可能长时间地注视,这样他们就可以通过在内容之间投放广告来货币化这些眼睛。Netflix 希望我们快速找到我们愿意观看(并且更好的是连续观看)的东西,这样我们就会留在他们的平台上,并选择他们来满足我们更多的观看需求。所有推荐引擎都有不同的目标行为,这些行为符合业务需求,即使这与客户的需求有关。
回到混淆矩阵
当数据科学家或机器学习工程师审查不同模型的混淆矩阵时,他们需要牢记模型的客观目标。
我们试图实现什么?好的样子是什么?
如我之前提到的,人们发现准确性的概念是直观的。这可能是一个负面影响,因为这意味着他们带来了自己的假设。例如,如果某物的准确性低于 50%,我经常听到“这比掷硬币还糟糕”。表面上看,这是真的。但如果我们由于事件罕见或不平衡,如果我们随机猜测,我们实际上是从 1%(或更少)的基线准确率开始的呢?那么 10%的准确率已经是 10 倍提高了。
我们需要从相对角度以及改进和价值增加与没有模型(或我们之前的模型)的角度来考虑准确性。
接下来,我们需要决定我们希望我们的错误预测落在何处——考虑到我之前提到的风险和成本。这是一个决定假阳性是否比假阴性更好或更糟的决定。
真阳性率也被称为模型的灵敏度。最大化这一点就是最小化假阴性(也称为 II 型错误)并增加我们预测的“命中率”或检测概率。我们的模型越敏感,我们错误地说它不存在/错过实际存在的东西的可能性就越小。
真阴性率也被称为模型的特异性。最大化这一点就是最小化假阳性(也称为 I 型错误)并增加我们对预测的选择性。我们的模型越具体,我们错误地说某物存在而实际上不存在的情况就越少,但我们错过实际存在的东西的可能性就越大。
那么呢?
不论是由数据科学家主动完成,还是由缺乏经验的数据科学家因疏忽而完成,或者是由 AI 自动完成,这都是精度优化背后正在发生的事情。它不能为所有人做所有事情,所以它回到了它被构建来做什么以及成功是如何定义的。
听到一个关于 AI 实例的一个统计数据评估并不能告诉你全部的故事。上下文绝对至关重要,不仅仅是你的感知,还有设计者的感知。如果你不知道决策是如何做出的,更高的准确率并不一定意味着更好。
理解我们的数据和 AI 产品实际上是如何满足我们的商业战略的,这是释放其价值的关键。
如果这对你或你的领导团队需要帮助,那么请查看我在kate-minogue.com上的服务。
通过对人员、战略和数据独特的综合关注,我可以在一系列咨询和顾问活动中提供支持,以增强你在商业、数据和执行挑战和机遇方面的战略实施。在这里或在我的LinkedIn上关注我,了解更多信息。
更多推荐

所有评论(0)