预期数量.阅读代币〔2015-02-02 14:19:00〕weka项目



我希望你们都做得很好!我在数据挖掘课上有一个项目。数据由数字数据组成,很多算法都不起作用。我必须这样做:您应该比较以下分类算法的性能:RandomForest,C4.5,JRip,贝叶斯网络。必要时使用Weka过滤器可替换或创造价值​​对于某些属性新特性。为了进行比较,采用列车/试验百分比拆分型训练数据的百分比等于80%。通过提供带有结果和展示了算法的性能。通过放置训练数据的百分比等于呈现结果的70%和50%";因此,我的第一次尝试是将weka内部的数据进行预处理,将数字数据转换为标称数据,但我的一个朋友认为这是统计错误的。因此,我的第二次尝试是使用excel将所有数据(甚至日期(转换为数字,删除第一行(id(并将其传递给weka(我只在日期处保留双引号(。但是我有一个标题上提到的错误数据集是:https://archive.ics.uci.edu/ml/datasets/Occupancy+检测+谢谢你抽出时间。

如果在ARFF文件中将类似日期的数据定义为date属性(使用正确的格式解析字符串(,那么WEKA将在内部将其视为数字属性(Java epoch,即1970-01-01以来的毫秒(。

如果算法无法处理数字属性,请使用有监督或无监督的Discretize过滤器,而不是使用NumericToNominal。

不建议使用将名义属性转换为数字属性的方法。相反,请尝试有监督或无监督的NominalToBinary筛选器。

最新更新