我已经在一小部分数据上训练了一个随机的森林分类器。对于目标'相关性',只有一个功能,'位置'。我的代码非常简单,可以在此处找到https://github.com/sakshamyadav/ocm_test/blob/master/master/untitled.ipynb
我现在想做的是:
- 输入带有"位置"列的任何CSV文件
- 将其通过我训练的随机森林算法来确定哪些是相关,哪些不是(1或0)
- 删除所有行相关的为0。
- 将结果保存为CSV
另外,我很感谢我对我的方法的任何反馈或建议,因为我对机器学习非常陌生,并且非常有兴趣知道是否有一种更轻松的方法来完成此任务,或者是否可以改进。提前很多:)
p.s我在jupyter笔记本电脑代码中提供的示例数据集是完全随机的,我并不是要放下任何教授。
从您的代码中缩减变量名称:
df = pd.read_csv('file_name.csv')
df = df[rfc.predict(df['Position']) != 0]
df.to_csv('new_clean_file.csv')