我正在执行文本分类任务。
i构建具有火车文本数据的分类器,具有1700多个属性(单词)。但是,我的测试数据仅具有500 属性(单词),当我在上述模型上运行测试数据时,它会引发 Train and test set are not compatible
异常。如何转换与火车数据一致的测试数据属性?
我的头顶:
计数每个数据文件中的线,写下linecounts。
将训练文件和测试文件同时复制到一个文件中,应用StringTowordOrdVector过滤器。
暂时删除所产生的巨大稀疏矩阵的上部〜75%(确切的值可能为73.4542%或其他)。
将其剩余的记录导出与转换后数据集的低25%(这些行表示您的原始测试集)相对应的记录。
现在撤消上部75%的删除操作。反转选择。删除对应于您的测试集的较低的25%。
运行分类器。
通过加载在您上面导出的新Arff文件中,将模型应用于测试集。