口译培训.log在天赋(Zalando Research)

我正在使用Flair库，以查看微调(单独实现(和嵌入投影之间是否存在很大差异(就结果而言(。我面临的问题涉及读取结果(在这种情况下，实验是通过使用BERT嵌入完成的(。在培训中.log我得到这个：

2019-10-10 16:27:02,964 Testing using best model ...
2019-10-10 16:27:02,966 loading file best-model.pt
2019-10-10 16:37:23,793 0.7539  0.7539  0.7539
2019-10-10 16:37:23,795
MICRO_AVG: acc 0.605 - f1-score 0.7539
MACRO_AVG: acc 0.5467 - f1-score 0.6925
0 tp: 1420 - fp: 438 - fn: 144 - tn: 363 - precision: 0.7643 - recall: 0.9079 - accuracy: 0.7093 - f1-score: 0.8299
1 tp: 363 - fp: 144 - fn: 438 - tn: 1420 - precision: 0.7160 - recall: 0.4532 - accuracy: 0.3841 - f1-score: 0.5551
2019-10-10 16:37:23,796

我的测试数据集包含二进制文本分类任务的 2365 个实例。最后 2 行是什么意思？0和1后跟真阳性、精度、召回率等等？什么是0？什么是1？我还单独加载了最佳模型并在我的测试数据集上进行了测试，我得到了不同的结果。

任何帮助将不胜感激。

由于您正在微调二元分类，因此精度、召回率和 F1 度量是评估模型的一种方法，您看到的都是对模型的评估。

第一个字符 0 或 1 表示类 0 或类 1(2 个类，作为其二元分类(。对于每个类，它都提到了真阳性(tp(，假阳性(fp(，假阴性(fn(和真阴性(tn(的数量。您可以将它们全部相加，它将等于测试集中的示例数量。

tp，tn，fp，fn的简短描述：

对于 0 类(作为正类(：

TP：类 0 的实际示例数，正确预测为类 0

FN：类 1 的实际示例数，正确预测为类 1

FP：类 1 的实际示例数，错误地预测为类 0

tn：类 0 的实际示例数，错误地预测为类 1

反之亦然，对于 1 类的第二行。

相关内容

最新更新

热门标签：