创新指南｜领导者视角：如何衡量AI项目价值及其对企业增长的影响

Runwise 创研院

2024-02-24

Runwise 创研院

03/22/2024
绩效管理

大多数AI/机器学习项目仅报告技术指标，这种衡量AI项目方法并不能告诉领导决策者可能交付的业务价值有多少。为了防止项目失败，应更多地关注业务指标。

“AI”涵盖广泛含义，但对于利用人工智能优化现有大规模运营的组织而言，核心技术是机器学习（ML），它是人们通常所说的AI的基石。ML能够优化各类商业流程，如改进目标市场营销、减轻欺诈、金融风险管理、物流等。与生成式AI相区分，这些项目有时也被称作预测性AI或预测分析。理论上，这些预测ML模型的性能——它们的优劣及创造的价值——应该是核心关注点。毕竟，创造商业价值才是其根本目的。

然而，实际并非如此。在评估模型时，大多数ML项目关注的是错误的指标——这常常导致项目彻底失败。

本文改编自《The AI Playbook: Mastering the Rare Art of Machine Learning Deployment》，我将阐述ML基准测试中技术指标与商业指标之间的差异，并展示如何以商业术语报告性能，以信用卡欺诈检测为例。

业务指标的首要性

在评估ML模型时，数据科学家们几乎完全集中于技术指标，如准确率、召回率和提升——一种预测倍增器（即，模型预测能力比随机猜测强多少倍？）。但这些指标远远不够，它们仅能告诉我们预测模型相对于基准线（如随机猜测）的相对性能，而不能直接反映模型的绝对商业价值。即便是最常见的指标——准确性，也属于这一范畴。（而且，它通常是不相关且经常会误导。）

相反，我们应该关注商业指标——如收入、利润、成本节省和获得的客户数。这些直接而突出的指标衡量了成功的基本概念，直接关联业务目标，并揭示了ML预测的真实价值。它们是构建商业与数据科学团队之间急需桥梁的核心。

不幸的是，尽管这些指标至关重要，数据科学家常常在报告和讨论中忽略商业指标，反而技术指标在ML实践中——无论是技术执行还是向利益相关者报告结果——占据主导地位。技术指标几乎是数据科学家唯一接受训练和ML工具所处理的指标类型。

数据科学家本应知道更好的做法，但通常不这样做——主要是因为ML软件工具通常只提供技术指标。根据2023年Rexer Analytics数据科学调查，数据科学家认为业务KPI（如ROI和收入）是最重要的指标，但表示最常测量的是技术指标。

AI行业在这方面的做法是颠倒的。正如Katie Malone在《哈佛数据科学评论》中精辟地指出，“数据科学家被训练优化的量值，他们用来衡量数据科学模型进展的指标，对商业利益相关者来说基本无用，除非经过大量转换。”

过分关注技术指标不仅会损害ML项目的价值，而且往往会完全破坏项目，主要有两个原因。首先，在模型开发期间，数据科学家基于不直接衡量商业价值的指标进行基准测试——因此他们的模型并未最大化价值。如果你不衡量价值，你就不会追求价值。

其次，当数据科学家交付ML模型以供部署时，商业利益相关者对模型可能实现的潜在商业价值缺乏可见性。他们没有有效的方法来衡量模型的优劣。当商业领导要求提供像利润或ROI这样的直接商业指标时，数据科学家通常无法提供这些数据。因此，在没有做出明晓决定的基础上，他们通常要在信仰跳跃式的授权部署和实质上取消项目之间做出艰难选择。后一种情况更为常见：大多数新的ML项目未能部署。IBM商业价值研究所的研究发现，截至2021年底，企业范围内AI计划的ROI平均仅为5.9%（这低于资本成本，意味着投资市场会更好）。正确处理指标讨论，包括商业指标，是克服启动ML项目的巨大挑战的关键。

如何从技术指标转向业务指标

让我们更深入地探讨衡量——因此追求——商业价值需要什么。我们常常可以通过加入模型预测错误时所支付的代价，从技术性能过渡到商业性能，建立一座数学桥梁。你会因为两种不同类型的预测错误而承担错误分类成本：

立即登录阅读全文

登录或注册即可解锁全站内容，即表示你理解并同意服务协议与隐私政策

假阳性（FP）：预测模型判断为“阳性”但实际上是错误的。这是一个被模型错误标记为阳性的阴性案例，也称为误报或错误标记。
假阴性（FN）：预测模型判断为“阴性”但实际上是错误的。这是一个被模型错误标记为阴性的阳性案例。

准确性是一个粗糙的工具。知道一个模型有12%的时间是错误的，这是一方面。这相当于说它有88%的时间是正确的；也就是说，它的准确率为88%。

但另一方面，更有帮助的是，单独详细说明它对阳性案例和阴性案例错了多少次。准确性并不做这样的区分。

举个例子：欺诈检测的成本

如何为FP和FN错误分类分配商业成本？这取决于每种错误的重要性。对几乎所有项目来说，FP错误的重要性不同于FN。

以欺诈检测为例。当你的银行模型错误地拦截了你的合法信用卡交易，好像它是欺诈行为，你会感到不便。这是一个FP。考虑到你可能会转而使用钱包中的另一张卡——不仅对当前购乐，而且通常如此——这可能平均给银行造成100美元的成本。

另一种错误更糟糕。当银行模型错误地允许一笔欺诈信用卡交易通过时，这可能平均给银行造成500美元的成本，因为犯罪者得以逃之夭夭。这是一个FN。

这些FN成本不容小觑。全球支付卡欺诈损失已超过每年280亿美元。卡持有人或一个警觉的审计员可能稍后会注意到这笔虚假交易，但对于卡片购乐来说，如果模型在实时未能捕捉到它，那么它就会消失。在美国，银行通常对这种损失负责。

通过确定这两种错误分类的成本，我们不仅为整个项目建立了成本效益分析，还为是否保留或授权交易的每个单独决策建立了分析。然后，我们可以将这些单独成本相加，计算整个项目的关键绩效指标（KPI）：成本节省。

牺牲一点准确性是有道理的

考虑一个中等规模的区域银行，如果没有部署欺诈检测模型，每年可能损失5000万美元。假设该银行发行了100,000张信用卡，每张卡每年平均进行1,000笔交易，其中千分之一为欺诈交易。概述如下：

年度交易总量：1亿笔
欺诈交易比例：0.1%
年度欺诈交易量：100,000笔
每笔欺诈交易成本：500美元（FN成本）
因欺诈造成的年度损失：100,000 × 500美元 = 5000万美元

显然，犯罪看似有利。然而，在你决定投身于欺诈行列之前，请知道，欺诈检测能够显著改善这一状况。

实际上，在上述例子中，可以节省1600万美元：关键在于开发一个欺诈检测模型，实现FP（成本较低）和FN（成本较高）之间的有效权衡。详细计算请见文章侧栏“欺诈检测模型的价值”。如所示，计算商业价值仅需简单的算术。

通常情况下，欺诈检测模型通过牺牲一定的准确性来实现成本节约。例如，侧栏中描述的模型的准确率为99.8%，略低于简单假设每笔交易都是合法的（从而不采取任何防欺诈措施）“愚蠢”模型的99.9%准确率。在这种情况下，准确率较低的模型实际上更有价值。

理解这一点的关键在于重新考虑准确度的根本缺陷：它不区分错误的类型，将FP和FN视为同等严重。由于它没有考虑不同的错误分类成本，对于大多数ML项目来说，准确度过于简化，除了在错误成本完全相同的极少数项目中。对于大多数项目而言，准确度是一条误导性的路径。

通常，只有通过牺牲一些准确性，欺诈检测模型才能实现成本节约。

除了创造商业价值外，欺诈检测还追求社会目标：打击犯罪。在示例中，欺诈检测成功拦截了超过一半的欺诈交易尝试。通过这种方式，它满足了消费者的期待。尽管人们有时对模型预测他们的行为表示不满——例如，被电子方式归类以接收不良广告——但当涉及到使用支付卡时，许多消费者欢迎预测，并乐意承受偶尔的交易拦截。相反，许多消费者希望避免为他们从未进行的购买支付费用。因此，典型持卡人对欺诈检测有期望，尽管他们可能没有意识到这一点。

通过汇报欺诈检测模型的绝对商业价值——在我们的例子中，为1600万美元的成本节约——而不仅仅是基于提升或其他技术指标的相对性能，为商业利益相关者提供了一个实际的评估基准。他们可以据此作出明智决定，决定是否、如何以及何时授权ML模型的部署。

现在是时候进行改变了：数据科学家必须将商业指标报告作为他们常规实践的一部分。虽然如今从技术指标过渡到商业指标还不常见，但这是一个可以轻松克服的问题。我们需要领导者和数据科学家愿意重新思考他们讨论和报告ML项目的方式——并为此获得奖励。这样，你将能够共同导向ML项目的成功。

企业创新加速

新业务方向混沌，高失败风险和成本，创新项目艰难推进，疫后企业创新如何做对？亟需降本增效地变革创新效率，加快打造创新平台以孵化新业务项目构建新增长。

欺诈检测模型的价值

让我们深入了解欺诈检测示例背后的逻辑——请知道，尽管这一重要步骤只是算术问题，但它是一种非常特殊的算术。

如果银行愿意将每1000次尝试交易中的2次（0.2%）视为潜在欺诈——实时决定保留交易并可能给客户带来不便——那么欺诈检测模型的责任就是标记哪些交易应该被保留。

假设模型实现了300的提升——这意味着，在被标记的0.2%交易中，欺诈发生的概率比平均高出300倍。这个技术指标告诉我们模型在识别某些更可能是欺诈的交易上做得相对不错。追求许多其他ML用例时，你可能希望的提升没有300这么高。

但提升总是相对于被标记群体的大小。在此案例中，我们只关心在被评分为最可能是欺诈的那一小部分交易中的提升——即将被阻止的顶部0.2%。我们不会阻止除这些之外的任何尝试交易，因此那一小部分是全部重点。鉴于它是这样一个小部分，高提升是可行的：模型可以潜在地充分区分较高风险交易，使得这一小部分包含了相对较高比例的阳性案例。

首先，我们需要计算发生的错误数量，分为FP和FN——模型多久一次错误地阻止一个合法交易，以及多久一次让一个欺诈交易通过。以下是详细情况：

被阻止的交易：200,000（每1,000中有2次）
被阻止的交易中欺诈的百分比：30%（提升×总体欺诈率=300×0.1%）
被阻止的欺诈交易：60,000（30%×200,000）
FPs（被阻止的合法交易）：140,000（200,000 – 60,000）
FNs（允许的欺诈交易）：40,000（100,000 – 60,000）

这个模型虽然经常出错，但极为有价值。当它阻止一笔交易时，它通常是错误的——只有30%的被阻止交易是欺诈。这并不少见。由于欺诈非常罕见，很难在不更频繁地错误标记合法交易的情况下正确检测到一些案例。由于合法交易——即阴性案例——如此普遍，即使将其中一小部分错误分类也意味着大量的FPs。

因此，我们能从模型中希望的最佳结果是，它提供了FPs（成本较低）和FNs（成本较高）之间的有利权衡。要计算最终结果，我们加总成本。我们已经确定了单个错误的成本：

FP的成本：100美元（对客户造成的不便）
FN的成本：500美元（诈骗者逍遥法外）

因此，我们只需将这些成本乘以它们发生的频率：

总FP成本：1400万美元（140,000个，每个100美元）
总FN成本：2000万美元（40,000个，每个500美元）
有欺诈检测的总成本：3400万美元

我们通过3000万美元减少了欺诈损失（从5000万美元减少到2000万美元），但引入了1400万美元的新成本，由于FPs。显然，这是一个值得的权衡。

总成本节省：1600万美元（从5000万美元减少到3400万美元）

更好的决策，更好的价值

通过报告欺诈检测模型的绝对商业价值——在我们的例子中，为1600万美元的成本节省——而不是仅仅基于提升或任何其他技术指标的相对性能，向商业利益相关者提供了一个真实的评估基础。他们可以就是否、如何以及何时授权ML模型部署做出明智决策。

是时候改变了：数据科学家必须将报告商业指标作为他们常规实践的一部分。虽然如今从技术指标转向商业指标还不常见，但这是一个可以克服的问题。你需要领导者和数据科学家愿意重新思考他们讨论和报告ML项目的方式——并因此获得奖励。这样，你将共同导向ML项目的成功。

原作者介绍

埃里克·西格尔（Eric Siegel）是一名AI顾问，曾任哥伦比亚大学和弗吉尼亚大学达顿商学院教授。他是《机器学习周》的创始人，也是《The AI Playbook: Mastering the Rare Art of Machine Learning Deployment 》（麻省理工学院出版社，2024 年）和《Predictive Analytics: The Power to Predict Who Will Click, Buy, Lie, or Die》（Wiley，2013）。