AI模型评估

选好了数据，找好了特征，并且训练好一个初步的模型了。就需要我们去判断模型的好坏，这时候应该怎么做呢？

一、模型评估

模型评估： 模型的效果评估是整个AI项目落地环节中非常重要的一环，在不同的应用场景下，我们通常需要使用不同的评价指标来衡量模型的效果。

二、混淆矩阵定义

混淆矩阵： 表明多个类别之间是否有混淆，即模型判断对了多少个结果，判断错了多少个结果。

当面对一个二分类问题时，我们通常会将结果表示为正类与负类（positive、negative）。

假定：流失用户就是正类，普通用户就是负类，那么混淆矩阵即为:

三、构建混淆矩阵

假设我们随机抽 200 条已经标注好的样本数据（其中，50 个流失用户，150 个普通用户），交给模型去预测，预测的结果中，60 个流失用户，140 个普通用户。在 60 个流失用户中，有 40 个确实是流失的用户，但也有 20 个预测错误的。

混淆矩阵：

四、准确率

准确率（Accuracy）：从全局的⻆度判断模型正确分类的能力。 对应到刚刚那个项目中，就是模型预测对的⼈，占全部⼈员的⽐例。极端情况下，模型所有⼈都预测对了，这个准确率就是 100%。

准确率的计算公式是

五、精确率

精确率（Precision）：判断模型识别出来的正类结果有多精确的指标。 对应到这个项目中，就是模型预测到那些真的流失用户，占模型预测到的所有流失用户的比率。

准确率的计算公式是

六、召回率

召回率（Recall）：也叫做查全率，判断模型识别广度的指标。 对应到这个项目中，就是模型找到的真正的流失用户，占真实情况中的所有流失用户的的⽐例

召回率的计算公式是：

七、精确率和召回率对比

精确率和召回率实际上是⼀对⽭盾的指标，精确率提升，召回率可能会随之降低。
在理想情况下，我们希望精确率和召回率两者都高。然而事实上这两者在很多情况下是互相矛盾的。

在不同的场合中，我们要根据实际情况来判断最终的模型，是应该让精确率比较高，还是召回率比较高。

地震的预测中:保证召回率，宁可抓错，不可放过
垃圾邮件的检测中:保证正确率，宁可放过，不可抓错

七、扩展应用

请分析以下场景中，召回率、精确率、准确率哪个更重要，为什么？

医疗诊断：在一项疾病的筛查模型中
信用卡审批：在一个银行信用卡审批模型中
刷脸支付：在微信或支付宝的刷脸支付场景中
产品质量检测：制造行业中的产品质量检测中
汽车碰撞预防系统：汽车的安全系统，如自动紧急刹车系统

参考答案：

场景	分析
医疗诊断	在疾病筛查模型中，召回率通常是最重要的指标。召回率高意味着模型能够识别出大多数真正的病例，从而减少遗漏诊断的风险。在医疗领域，漏诊一个病例的代价远高于误诊，因为漏诊可能导致病情恶化，而误诊后还有机会通过进一步检查纠正错误。
信用卡审批	信用卡审批模型中，精确率可能更加重要。高精确率意味着批准的信用卡申请者真的具有良好的信用记录，降低了银行的信贷风险。尽管高召回率也重要（不错过好的客户），但在风险管理的角度，确保授信对象的可靠性更为关键。
刷脸支付	在微信或支付宝的刷脸支付场景中，精确率非常重要。高精确率确保支付操作仅对验证正确的用户开放，这对于保护用户的财产安全至关重要。虽然高召回率也重要以提供良好的用户体验，但在金融交易中，安全性优先。
产品质量检测	制造行业的产品质量检测中，召回率和精确率都很重要，但具体取决于产品的性质和风险。例如，在安全关键的产品（如汽车部件）中，高召回率至关重要，以确保所有潜在的不合格品被检测出来。但在一些较不严格的产品中，可能更注重精确率，以避免过多的合格产品被错误判定为不合格。
汽车碰撞预防系统	在汽车安全系统，如自动紧急刹车系统中，准确率通常是最重要的。这是因为系统的主要目标是正确地识别出真正的危险情况并作出反应，同时避免因误报而引发不必要的干预或潜在的新危险。因此，系统需要在召回率和精确率之间保持良好的平衡，确保既能检测到真正的威胁，又不会频繁误报。

总之，不同的应用场景对召回率、精确率、准确率的需求不同，需要根据每个场景的具体需求和风险来权衡这些指标的重要性。

AI模型评估 ​

一、模型评估 ​

二、混淆矩阵定义 ​

三、构建混淆矩阵 ​

四、准确率 ​

五、精确率 ​

六、召回率 ​

七、精确率和召回率对比 ​

七、扩展应用 ​