WEKA:如何转换与火车数据量一致的测试数据量



我正在执行文本分类任务。

i构建具有火车文本数据的分类器,具有1700多个属性(单词)。但是,我的测试数据仅具有500 属性(单词),当我在上述模型上运行测试数据时,它会引发 Train and test set are not compatible 异常。如何转换与火车数据一致的测试数据属性?

我的头顶:

计数每个数据文件中的线,写下linecounts。

将训练文件和测试文件同时复制到一个文件中,应用StringTowordOrdVector过滤器。

暂时删除所产生的巨大稀疏矩阵的上部〜75%(确切的值可能为73.4542%或其他)。

将其剩余的记录导出与转换后数据集的低25%(这些行表示您的原始测试集)相对应的记录。

现在撤消上部75%的删除操作。反转选择。删除对应于您的测试集的较低的25%。

运行分类器。

通过加载在您上面导出的新Arff文件中,将模型应用于测试集。

最新更新