口译培训.log在天赋(Zalando Research)



我正在使用Flair库,以查看微调(单独实现(和嵌入投影之间是否存在很大差异(就结果而言(。我面临的问题涉及读取结果(在这种情况下,实验是通过使用BERT嵌入完成的(。 在培训中.log我得到这个:

2019-10-10 16:27:02,964 Testing using best model ...
2019-10-10 16:27:02,966 loading file best-model.pt
2019-10-10 16:37:23,793 0.7539  0.7539  0.7539
2019-10-10 16:37:23,795
MICRO_AVG: acc 0.605 - f1-score 0.7539
MACRO_AVG: acc 0.5467 - f1-score 0.6925
0 tp: 1420 - fp: 438 - fn: 144 - tn: 363 - precision: 0.7643 - recall: 0.9079 - accuracy: 0.7093 - f1-score: 0.8299
1 tp: 363 - fp: 144 - fn: 438 - tn: 1420 - precision: 0.7160 - recall: 0.4532 - accuracy: 0.3841 - f1-score: 0.5551
2019-10-10 16:37:23,796

我的测试数据集包含二进制文本分类任务的 2365 个实例。最后 2 行是什么意思?0和1后跟真阳性、精度、召回率等等?什么是0?什么是1? 我还单独加载了最佳模型并在我的测试数据集上进行了测试,我得到了不同的结果。

任何帮助将不胜感激。

由于您正在微调二元分类,因此精度、召回率和 F1 度量是评估模型的一种方法,您看到的都是对模型的评估。

第一个字符 0 或 1 表示类 0 或类 1(2 个类,作为其二元分类(。对于每个类,它都提到了真阳性(tp(,假阳性(fp(,假阴性(fn(和真阴性(tn(的数量。您可以将它们全部相加,它将等于测试集中的示例数量。

tp,tn,fp,fn的简短描述:

对于 0 类(作为正类(:

TP:类 0 的实际示例数,正确预测为类 0

FN:类 1 的实际示例数,正确预测为类 1

FP:类 1 的实际示例数,错误地预测为类 0

tn:类 0 的实际示例数,错误地预测为类 1

反之亦然,对于 1 类的第二行。

最新更新