机器学习模型评估指标：如何判断一个模型到底好不好

发布时间：2025-12-14 02:28:45 阅读：498 次

准确率不只是数字游戏

你训练了一个识别猫狗的模型，测试集上准确率达到95%，看起来挺厉害。可如果数据里90%都是猫，模型干脆全猜“猫”，准确率也能轻松过九成。这时候你还觉得它靠谱吗？这说明，光看准确率容易被误导。

分类问题里的常用指标

在二分类任务中，混淆矩阵是基础。它把预测结果分成四类：真正例（TP）、假正例（FP）、真反例（TN）、假反例（FN）。从这里能推导出一堆实用指标。

比如精确率（Precision），它关心的是“我预测为正的那些样本里，有多少是真的”。公式是 TP / (TP + FP)。如果你做垃圾邮件检测，不希望正常邮件被误判进垃圾箱，那就要高精确率。

召回率（Recall）则关注“所有真正的正样本里，我找出了多少”，公式是 TP / (TP + FN)。医疗诊断场景就更看重这个——宁可多查几个，也不能漏掉病人。

F1 分数是精确率和召回率的调和平均，适合两者都要兼顾的情况。特别是类别不平衡时，F1 比单纯准确率更有参考价值。

ROC曲线与AUC值怎么看

很多模型输出的是概率，比如“这张图有70%可能是猫”。你可以调整阈值来改变分类结果。ROC曲线就是画出不同阈值下的真正例率（TPR）和假正例率（FPR）。

AUC 值表示ROC曲线下的面积，数值越接近1越好。它的好处是不受阈值影响，整体反映模型区分能力。哪怕正负样本比例变了，AUC 依然稳定，适合用来横向比较不同模型。

回归任务用什么衡量

不是所有问题都分类。房价预测、销量预估这类回归任务，得换指标。最常见的是均方误差（MSE），把每个预测值和真实值的差平方后求平均。缺点是异常值影响大，一个预测错得离谱，整个MSE就飙升。

于是有人改用平均绝对误差（MAE），直接算差值的绝对值平均。好处是更稳健，对极端值不敏感。但有时候我们也想强调大错误的代价，那就还是得用MSE。

还有一个叫 R²（决定系数），表示模型能解释数据变异的程度。最大为1，也可能为负，越接近1说明拟合效果越好。它不像MSE那样受量纲影响，方便跨项目对比。

代码示例：快速计算常用指标

from sklearn.metrics import accuracy_score, precision_recall_fscore_support, roc_auc_score, mean_squared_error, r2_score

# 分类例子
y_true_class = [1, 0, 1, 1, 0, 1]
y_pred_class = [1, 0, 1, 0, 0, 1]
precision, recall, f1, _ = precision_recall_fscore_support(y_true_class, y_pred_class, average='binary')
print(f"精确率: {precision:.3f}, 召回率: {recall:.3f}, F1: {f1:.3f}")

# 回归例子
y_true_reg = [100, 150, 120, 200]
y_pred_reg = [110, 140, 115, 180]
mse = mean_squared_error(y_true_reg, y_pred_reg)
r2 = r2_score(y_true_reg, y_pred_reg)
print(f"MSE: {mse:.2f}, R2: {r2:.3f}")

选择指标要结合业务场景

电商推荐系统里，用户点击与否的预测，可能更关注排序质量。这时候 AUC 或者 PR 曲线下的面积比准确率更有意义。金融风控中防欺诈，宁可错杀一千也不放过一个，召回率优先。而客服机器人自动回复是否准确，则要看每次回答是不是真的解决了问题，精确率更重要。

没有哪个指标永远最优，关键是你清楚自己在优化什么。同一个模型，在不同指标下可能排名完全不同。上线前多跑几组评估，才能知道它在实际场景中表现如何。