跳到内容

术语表

自举法

一种使用随机化来估计置信区间和统计显著性的方法。使用自举法计算的指标的置信区间和统计显著性用 [B] 标记。除非另有说明,自举法是非参数的,并在“样本/预测”级别运行。

默认指标

一个默认指标(例如,默认准确率)是指模型总是输出相同值时,指标的最大可能值。例如,在平衡二分类数据集中,默认准确率为 0.5。

分类

ACC (准确率)

准确率(Acc)是正确预测数占总预测数的比例

\[ 准确率 = \frac{\textrm{正确预测数}}{\textrm{总预测数}} \]

如果未指定,则报告使准确率最大化的阈值。

准确率的置信区间使用 Wilson Score IntervalAcc CI [W])和非参数百分位自举法(Acc CI [B])计算。

混淆矩阵

混淆矩阵 显示了预测值与真实值之间的关系。矩阵的列代表预测值,行代表真实值:\(M_{i,j}\) 是类别 \(j\) 的预测数,其真实类别为 \(i\)

在加权评估的情况下,混淆矩阵是加权混淆矩阵。

对数损失

对数损失定义为

\[ logloss = \frac{\sum_{i=1}^{n} - \log{ p_{i,y_i} } }{n} \]

其中 \(\{y_i\}_{i \in [1,n]}\) 是标签,\(p_{i,j}\) 是观测 \(i\) 中类别 \(j\) 的预测概率。注意:\(\forall i, \sum_{j=1}^{c} p_{i,j} = 1\)

并非所有机器学习算法都经过校准,因此并非所有机器学习算法都能最小化对数损失。默认预测器能最小化对数损失。默认对数损失等于标签的香农熵。

ROC (受试者工作特征曲线)

ROC 曲线 显示了召回率(也称真阳性率)与假阳性率之间的关系。

ROC 计算时不使用凸包规则(参见 “技术说明:PAV 与 ROC 凸包”)。

AUC (ROC曲线下面积)

AUC 是 ROC 曲线的积分。

AUC 使用梯形法则计算,不使用凸包规则。

ROC 曲线的置信区间使用 Hanley 等人提出的方法(AUC CI [H])和非参数百分位自举法(AUC CI [B])计算。

PR (精确率-召回率曲线)

PR 曲线显示了精确率与召回率之间的关系。

PR 曲线计算时不使用凸包规则。

PR-AUC (精确率-召回率曲线下面积)

PR-AUC 是 PR 曲线的积分。

PR-AUC 使用下梯形法则计算(PR-AUC)。Boyd 等人 对计算 PR-AUC 的各种方法进行了介绍和比较。这项工作表明,使用下梯形法则估算 PR-AUC 比常用的平均精度法则(AP)(scikit learn 使用的法则)偏差更低。

PR 曲线的置信区间使用逻辑区间(PR-AUC CI [L])和非参数百分位自举法(PR-AUC CI [B])计算。Boyd 等人 的工作表明这两种方法的覆盖率优于交叉验证方法。

X@Y 指标

X@Y 指标(例如给定召回率下的精确率)以保守方式计算,不进行插值。根据指标对的不同,保守值可以是下界或上界

  • 精确率 @ 召回率:在召回率大于或等于给定限值的情况下,使用最高阈值计算的精确率。注意:精确率与阈值并非单调关系。
  • 精确率 @ 体积:在体积大于或等于给定限值的情况下,使用最高阈值计算的精确率。
  • 召回率 @ 精确率:在精确率大于或等于给定限值的情况下,最高的召回率。注意:召回率与阈值呈单调关系。
  • 召回率 @ 假阳性率:在假阳性率小于或等于给定限值的情况下,最高的召回率。注意:召回率和 FPR 彼此呈单调正相关。
  • 假阳性率 @ 召回率:在召回率大于或等于给定限值的情况下,最小(最优)的假阳性率。

X@Y 指标的置信区间使用非参数百分位自举法计算。

单侧 McNemar 检验

McNemar 检验用于返回零假设的 p 值,即“model_1”在阈值“threshold_1”处的准确率不大于“model_2”在阈值“threshold_2”处的准确率。

Mathworks 链接 关于如何计算 McNemar 检验。

有一些关于如何计算 McNemar 检验 p 值的资源(使用二项分布 / 高斯 CDF / 卡方 CDF)。在离线运行模拟后,二项分布被认为是最适合我们的用途的。

回归

我们建议阅读关于回归模型评估的 维基百科页面

*默认预测器* 输出在 测试 数据集上估计的标签平均值(默认预测器总是输出相同的值)。

RMSE (均方根误差)

RMSE 定义如下

\[ RMSE = \sqrt{ \frac{\sum_{i=1}^{n} (\hat{y_i} - y_i)^2 }{n}} \]

其中 \(\{y_i\}_{i \in [1,n]}\) 是标签,\(\{\hat{y}_i\}_{i \in [1,n]}\) 是预测值。

较小的 RMSE 表明模型预测准确,而较高的 RMSE 表明模型表现较差。RMSE 的单位与标签单位相同(例如,如果您预测篮子里的苹果数量,RMSE 将以苹果数量为单位)。

RMSE 的封闭形式置信区间,记为 RMSE CI[X2],是假设残差(即 \(y_i - \hat{y}_i\))是从中心正态分布中采样而来计算的。应使用 Html 评估报告中提供的归一化正态分位数-分位数图(定义如下)检查此假设。

RMSE CI[X2] 置信区间计算公式如下

\[ \left[ \sqrt{\frac{n}{ \chi^2_{1 - (1 - \beta) / 2,n}}} RMSE , \sqrt{\frac{n}{\chi^2_{(1 - \beta) / 2,n}}} RMSE \right] \]

其中 RMSE 是估计的 RMSE,\(\beta\) 是置信水平(例如 \(95\%\)),\(n\) 是样本数,\(\chi^2\)卡方分布 的分位数函数。

更多详情请参阅《工程统计手册》中关于 “方差的卡方检验” 的章节。注意:RMSE 是残差的标准差。

RMSE 的置信区间也使用自举法计算(RMSE CI[B])。

残差正态概率图

残差正态概率图 是残差(方差归一化后)与单位正态分布之间的 分位数-分位数图

笔直的对角线正态概率图表明残差呈正态分布。如果不是对角线,则可以使用图的形状(以及残差直方图)来判断残差分布的性质。

以下是残差正态概率图的一个示例。模型 2 的残差大致呈正态分布,而模型 1 的残差则不是。

条件 {真实值, 预测值, 召回率} 图

条件图 显示了真实值、预测值和召回率这三个变量中任意两个之间的关系。这些图有助于理解模型在哪方面表现最好,在哪方面表现最差。

以下是三个条件图的示例。模型 1 在真实值较低时表现最好,而模型 2 看起来是随机的(它是一个随机预测器)。

应结合真实值的直方图来阅读这些图。

排序

我们建议阅读关于 *学习排序* 任务的 维基百科页面

归一化折损累积增益 (NDCG)

NDCG 定义如下

\[ NDCG@T = \frac{DCG@T}{maxDCG@T} \]

其中

\[ DCG@T = \sum_{i=1}^{T} \frac{G(r_i)}{log(1+i)} \]
\[ maxDCG@T = \sum_{i=1}^{T} \frac{G(\hat{r}_i)}{log(1+i)} \]

其中 \(T\) 是截断位置(例如 5),\(r_i\) 是预测值最大的第 *i* 个样本的 *相关性*,\(\hat{r}_i\) 是相关性最大的第 *i* 个样本的 *相关性*(即 \(\hat{r}_1 \geq \hat{r}_2 \geq \cdots\))。

通常约定 *相关性* 是一个介于 0 和 4 之间的数字,而 *增益* 函数是 \(G(r) = 2^{r_i} - 1\)

NDCG 值介于 0(最差)和 1(完美)之间。

如果预测值存在并列(即模型对两个样本预测了相同的值),则增益在并列元素之间平均(参见 《在并列得分存在时高效计算信息检索性能指标》)。

默认 NDCG 是通过对所有样本的增益进行平均计算的。

更多详情请参阅 《从 RankNet 到 LambdaRank 再到 LambdaMART:概述》 的第 3 节。

特征选择

特征选择算法识别并移除不必要的输入特征,从而提高模型质量并加快后续训练。更多详情请参阅 维基百科文章