预期数量.阅读代币〔2015-02-02 14:19:00〕weka项目

我希望你们都做得很好！我在数据挖掘课上有一个项目。数据由数字数据组成，很多算法都不起作用。我必须这样做：您应该比较以下分类算法的性能：RandomForest，C4.5，JRip，贝叶斯网络。必要时使用Weka过滤器可替换或创造价值对于某些属性新特性。为了进行比较，采用列车/试验百分比拆分型训练数据的百分比等于80%。通过提供带有结果和展示了算法的性能。通过放置训练数据的百分比等于呈现结果的70%和50%"；因此，我的第一次尝试是将weka内部的数据进行预处理，将数字数据转换为标称数据，但我的一个朋友认为这是统计错误的。因此，我的第二次尝试是使用excel将所有数据(甚至日期(转换为数字，删除第一行(id(并将其传递给weka(我只在日期处保留双引号(。但是我有一个标题上提到的错误数据集是：https://archive.ics.uci.edu/ml/datasets/Occupancy+检测+谢谢你抽出时间。

如果在ARFF文件中将类似日期的数据定义为date属性(使用正确的格式解析字符串(，那么WEKA将在内部将其视为数字属性(Java epoch，即1970-01-01以来的毫秒(。

如果算法无法处理数字属性，请使用有监督或无监督的Discretize过滤器，而不是使用NumericToNominal。

不建议使用将名义属性转换为数字属性的方法。相反，请尝试有监督或无监督的NominalToBinary筛选器。

相关内容

最新更新

热门标签：