r-多个ARFF文件的WEKA预测

我对WEKA和ARFF文件还很陌生，目前正在使用它的GUI。我感到困惑的是，如何对多个ARFF文件进行预测（分类）？

例如，文件A有3个属性，"ID"、"attribute_1"、"attribute_2"；而文件B具有两个属性，"ID"、"Scores"（用于预测的主属性）。

问题是，file A中的每一行数据都是唯一的，但B中的数据是重复的。这两个文件通过其"ID"进行关联。换句话说，file B为file A处的每个元素存储一组"scores"。

有什么建议可以让我同时加入file A&B在一起？或者有什么方法可以让我围绕WEKA工作，让它发挥作用吗？

Weka需要一个"扁平"表，即arff-文件。这个过程也称为反规范化。有一个weka包（Denormalize），其中包含一个用于执行此操作的筛选器。

这里有一个如何对事务数据进行扁平化的示例：https://weka.wikispaces.com/How+可以+I+使用+事务+数据+in+Weka%3F

在使用过滤器之前，您必须将两个文件合并在一起。如果你有csv文件或类似的文件，你可以通过Excel实现，例如：

https://superuser.com/questions/420635/how-do-i-join-two-worksheets-in-excel-as-i-would-in-sql

相关内容