我对WEKA
和ARFF
文件还很陌生,目前正在使用它的GUI
。我感到困惑的是,如何对多个ARFF
文件进行预测(分类)?
例如,文件A有3个属性,"ID"
、"attribute_1"
、"attribute_2"
;而文件B具有两个属性,"ID"
、"Scores"
(用于预测的主属性)。
问题是,file A
中的每一行数据都是唯一的,但B
中的数据是重复的。这两个文件通过其"ID"
进行关联。换句话说,file B
为file A
处的每个元素存储一组"scores"
。
有什么建议可以让我同时加入file A
&B
在一起?或者有什么方法可以让我围绕WEKA
工作,让它发挥作用吗?
Weka需要一个"扁平"表,即arff
-文件。这个过程也称为反规范化。有一个weka包(Denormalize),其中包含一个用于执行此操作的筛选器。
这里有一个如何对事务数据进行扁平化的示例:https://weka.wikispaces.com/How+可以+I+使用+事务+数据+in+Weka%3F
在使用过滤器之前,您必须将两个文件合并在一起。如果你有csv
文件或类似的文件,你可以通过Excel实现,例如:
https://superuser.com/questions/420635/how-do-i-join-two-worksheets-in-excel-as-i-would-in-sql