术语表¶

自举法¶

一种使用随机化来估计置信区间和统计显著性的方法。使用自举法计算的指标的置信区间和统计显著性用 [B] 标记。除非另有说明，自举法是非参数的，并在“样本/预测”级别运行。

默认指标¶

一个默认指标（例如，默认准确率）是指模型总是输出相同值时，指标的最大可能值。例如，在平衡二分类数据集中，默认准确率为 0.5。

分类¶

ACC (准确率)¶

准确率（Acc）是正确预测数占总预测数的比例

\[ 准确率 = \frac{\textrm{正确预测数}}{\textrm{总预测数}} \]

如果未指定，则报告使准确率最大化的阈值。

准确率的置信区间使用 Wilson Score Interval（Acc CI [W]）和非参数百分位自举法（Acc CI [B]）计算。

混淆矩阵¶

混淆矩阵显示了预测值与真实值之间的关系。矩阵的列代表预测值，行代表真实值：\(M_{i,j}\) 是类别 \(j\) 的预测数，其真实类别为 \(i\)。

在加权评估的情况下，混淆矩阵是加权混淆矩阵。

对数损失¶

对数损失定义为

\[ logloss = \frac{\sum_{i=1}^{n} - \log{ p_{i,y_i} } }{n} \]

其中 \(\{y_i\}_{i \in [1,n]}\) 是标签，\(p_{i,j}\) 是观测 \(i\) 中类别 \(j\) 的预测概率。注意：\(\forall i, \sum_{j=1}^{c} p_{i,j} = 1\)。

并非所有机器学习算法都经过校准，因此并非所有机器学习算法都能最小化对数损失。默认预测器能最小化对数损失。默认对数损失等于标签的香农熵。

ROC (受试者工作特征曲线)¶

ROC 曲线显示了召回率（也称真阳性率）与假阳性率之间的关系。

ROC 计算时不使用凸包规则（参见 “技术说明：PAV 与 ROC 凸包”）。

AUC (ROC曲线下面积)¶

AUC 是 ROC 曲线的积分。

AUC 使用梯形法则计算，不使用凸包规则。

ROC 曲线的置信区间使用 Hanley 等人提出的方法（AUC CI [H]）和非参数百分位自举法（AUC CI [B]）计算。

PR (精确率-召回率曲线)¶

PR 曲线显示了精确率与召回率之间的关系。

PR 曲线计算时不使用凸包规则。

PR-AUC (精确率-召回率曲线下面积)¶

PR-AUC 是 PR 曲线的积分。

PR-AUC 使用下梯形法则计算（PR-AUC）。Boyd 等人对计算 PR-AUC 的各种方法进行了介绍和比较。这项工作表明，使用下梯形法则估算 PR-AUC 比常用的平均精度法则（AP）（scikit learn 使用的法则）偏差更低。

PR 曲线的置信区间使用逻辑区间（PR-AUC CI [L]）和非参数百分位自举法（PR-AUC CI [B]）计算。Boyd 等人的工作表明这两种方法的覆盖率优于交叉验证方法。

X@Y 指标¶

X@Y 指标（例如给定召回率下的精确率）以保守方式计算，不进行插值。根据指标对的不同，保守值可以是下界或上界

精确率 @ 召回率：在召回率大于或等于给定限值的情况下，使用最高阈值计算的精确率。注意：精确率与阈值并非单调关系。
精确率 @ 体积：在体积大于或等于给定限值的情况下，使用最高阈值计算的精确率。
召回率 @ 精确率：在精确率大于或等于给定限值的情况下，最高的召回率。注意：召回率与阈值呈单调关系。
召回率 @ 假阳性率：在假阳性率小于或等于给定限值的情况下，最高的召回率。注意：召回率和 FPR 彼此呈单调正相关。
假阳性率 @ 召回率：在召回率大于或等于给定限值的情况下，最小（最优）的假阳性率。

X@Y 指标的置信区间使用非参数百分位自举法计算。

单侧 McNemar 检验¶

McNemar 检验用于返回零假设的 p 值，即“model_1”在阈值“threshold_1”处的准确率不大于“model_2”在阈值“threshold_2”处的准确率。

Mathworks 链接关于如何计算 McNemar 检验。

有一些关于如何计算 McNemar 检验 p 值的资源（使用二项分布 / 高斯 CDF / 卡方 CDF）。在离线运行模拟后，二项分布被认为是最适合我们的用途的。

回归¶

我们建议阅读关于回归模型评估的维基百科页面。

*默认预测器* 输出在测试数据集上估计的标签平均值（默认预测器总是输出相同的值）。

RMSE (均方根误差)¶

RMSE 定义如下

\[ RMSE = \sqrt{ \frac{\sum_{i=1}^{n} (\hat{y_i} - y_i)^2 }{n}} \]

其中 \(\{y_i\}_{i \in [1,n]}\) 是标签，\(\{\hat{y}_i\}_{i \in [1,n]}\) 是预测值。

较小的 RMSE 表明模型预测准确，而较高的 RMSE 表明模型表现较差。RMSE 的单位与标签单位相同（例如，如果您预测篮子里的苹果数量，RMSE 将以苹果数量为单位）。

RMSE 的封闭形式置信区间，记为 RMSE CI[X2]，是假设残差（即 \(y_i - \hat{y}_i\)）是从中心正态分布中采样而来计算的。应使用 Html 评估报告中提供的归一化正态分位数-分位数图（定义如下）检查此假设。

RMSE CI[X2] 置信区间计算公式如下

\[ \left[ \sqrt{\frac{n}{ \chi^2_{1 - (1 - \beta) / 2,n}}} RMSE , \sqrt{\frac{n}{\chi^2_{(1 - \beta) / 2,n}}} RMSE \right] \]

其中 RMSE 是估计的 RMSE，\(\beta\) 是置信水平（例如 \(95\%\)），\(n\) 是样本数，\(\chi^2\) 是卡方分布的分位数函数。

更多详情请参阅《工程统计手册》中关于 “方差的卡方检验” 的章节。注意：RMSE 是残差的标准差。

RMSE 的置信区间也使用自举法计算（RMSE CI[B]）。

残差正态概率图¶

残差正态概率图 是残差（方差归一化后）与单位正态分布之间的 分位数-分位数图。

笔直的对角线正态概率图表明残差呈正态分布。如果不是对角线，则可以使用图的形状（以及残差直方图）来判断残差分布的性质。

以下是残差正态概率图的一个示例。模型 2 的残差大致呈正态分布，而模型 1 的残差则不是。

条件 {真实值, 预测值, 召回率} 图¶

条件图 显示了真实值、预测值和召回率这三个变量中任意两个之间的关系。这些图有助于理解模型在哪方面表现最好，在哪方面表现最差。

以下是三个条件图的示例。模型 1 在真实值较低时表现最好，而模型 2 看起来是随机的（它是一个随机预测器）。

应结合真实值的直方图来阅读这些图。

排序¶

我们建议阅读关于 *学习排序* 任务的维基百科页面。

归一化折损累积增益 (NDCG)¶

NDCG 定义如下

\[ NDCG@T = \frac{DCG@T}{maxDCG@T} \]

其中

\[ DCG@T = \sum_{i=1}^{T} \frac{G(r_i)}{log(1+i)} \]

\[ maxDCG@T = \sum_{i=1}^{T} \frac{G(\hat{r}_i)}{log(1+i)} \]

其中 \(T\) 是截断位置（例如 5），\(r_i\) 是预测值最大的第 *i* 个样本的 *相关性*，\(\hat{r}_i\) 是相关性最大的第 *i* 个样本的 *相关性*（即 \(\hat{r}_1 \geq \hat{r}_2 \geq \cdots\)）。

通常约定 *相关性* 是一个介于 0 和 4 之间的数字，而 *增益* 函数是 \(G(r) = 2^{r_i} - 1\)。

NDCG 值介于 0（最差）和 1（完美）之间。

如果预测值存在并列（即模型对两个样本预测了相同的值），则增益在并列元素之间平均（参见《在并列得分存在时高效计算信息检索性能指标》）。

默认 NDCG 是通过对所有样本的增益进行平均计算的。

更多详情请参阅《从 RankNet 到 LambdaRank 再到 LambdaMART：概述》的第 3 节。

特征选择¶

特征选择算法识别并移除不必要的输入特征，从而提高模型质量并加快后续训练。更多详情请参阅维基百科文章。