r-多个ARFF文件的WEKA预测



我对WEKAARFF文件还很陌生,目前正在使用它的GUI。我感到困惑的是,如何对多个ARFF文件进行预测(分类)?

例如,文件A有3个属性,"ID""attribute_1""attribute_2";而文件B具有两个属性,"ID""Scores"(用于预测的主属性)。

问题是,file A中的每一行数据都是唯一的,但B中的数据是重复的。这两个文件通过其"ID"进行关联。换句话说,file Bfile A处的每个元素存储一组"scores"

有什么建议可以让我同时加入file A&B在一起?或者有什么方法可以让我围绕WEKA工作,让它发挥作用吗?

Weka需要一个"扁平"表,即arff-文件。这个过程也称为反规范化。有一个weka包(Denormalize),其中包含一个用于执行此操作的筛选器。

这里有一个如何对事务数据进行扁平化的示例:https://weka.wikispaces.com/How+可以+I+使用+事务+数据+in+Weka%3F

在使用过滤器之前,您必须将两个文件合并在一起。如果你有csv文件或类似的文件,你可以通过Excel实现,例如:

https://superuser.com/questions/420635/how-do-i-join-two-worksheets-in-excel-as-i-would-in-sql

最新更新