我从UCI档案中下载了一个称为乳房X线量质量数据的数据集。我将文件保存到edexcel中,然后保存为.csv文件。数据集的属性信息是:
属性信息:
-
BI-RADS评估:1至5(序数(
-
年龄:年龄(整数(
-
形状:质量形状:圆形= 1椭圆形= 2小叶= 3 norryrendular = 4(名义(
- 边距:质量边缘:限制= 1微杆= 2遮盖= 3不定定义= 4 spiculation = 5(名义(
- 密度:质量密度高= 1 ISO = 2 low = 3含脂肪的= 4(序数(
- 严重程度:良性= 0或恶性= 1(binominal(
我在实验环境中打开文件并尝试运行,但是我会收到以下错误消息:
13:01:56:开始
13:01:56:类属性不是名义!
13:01:56:中断
13:01:56:有1个错误
我尝试将属性更改为探险家中的类,但这没有奏效。任何建议都很棒:(
您需要的是一个过滤器,更具体地说是描述过滤器,以预处理数据。
例如,假设ins
是存储数据集的实例对象。以下代码显示了如何使用过滤器。
Discretize filter = new Discretize();
filter.setOptions(...); // set options
filter.setInputFormat(ins);
ins = Filter.useFilter(ins, filter);