小贝子编程

WEKA:如何转换与火车数据量一致的测试数据量

本文关键字：数据火车测试数据何转换转换 WEKA weka text-classification
更新时间 : 2023-09-10
英文 : Weka: how to convert the test data attibutes consistent with the train data attibutes?

我正在执行文本分类任务。

i构建具有火车文本数据的分类器，具有1700多个属性（单词）。但是，我的测试数据仅具有500 属性（单词），当我在上述模型上运行测试数据时，它会引发 Train and test set are not compatible 异常。如何转换与火车数据一致的测试数据属性？

我的头顶：

计数每个数据文件中的线，写下linecounts。

将训练文件和测试文件同时复制到一个文件中，应用StringTowordOrdVector过滤器。

暂时删除所产生的巨大稀疏矩阵的上部〜75％（确切的值可能为73.4542％或其他）。

将其剩余的记录导出与转换后数据集的低25％（这些行表示您的原始测试集）相对应的记录。

现在撤消上部75％的删除操作。反转选择。删除对应于您的测试集的较低的25％。

运行分类器。

通过加载在您上面导出的新Arff文件中，将模型应用于测试集。

相关内容