我是机器学习的新手,我得到了一个数据集,所以在深入建模之前,我想知道处理数据集的确切步骤。据我所知,我们首先需要清理数据(删除重复项、处理null…(将数据可视化然后功能选择-(制作新功能(
那么,我们应该在特征选择后分割数据,然后开始建模吗?我真的很困惑!
非常感谢!
正如你在那里写的那样,机器学习的生命周期如下所示;
- 收集数据
- 研究收集的数据,哪些特征是分类的特征是数字等(学习数据类型(
- 开始数据操作/清理操作,如删除重复、异常值、高度相关的事物(即,如果存在两个功能雄性和雌性删除其中一个,因为如果你是不是男性,你是100%的女性。(
- 可视化您的数据以观察异常值、相关性等
- 如果你有分类数据,你需要把它们转换成数字
- 分离从属特征和独立特征
- 功能选择,选择一些最重要的功能
- 根据你有多少样品来决定该做什么
- 如果不是太多,则意味着每个样本/记录对您都很重要,并考虑交叉验证
- 拆分数据后,再次检查数据。如果你的特征有不同的单位,并且它们之间有很大的差异,你应该考虑做";标准化或标准化";使用相同单位/比例的方法
- 一切都已完成。决定要选择的评估指标。确定你的项目目标。你想要什么
- 然后选择型号。在拟合和预测过程之后,检查您的评估模型、分数。哪一个得分最高?(在做这件事的时候,我建议你计算时间。时间真的很重要。你也应该考虑它。(
一个准确的测量值胜过一千个专家意见
您可以在github中查看我的一个项目=>https://github.com/erolerdogan/Property-Maintenance-Fines
我希望这些步骤能帮助你更多地理解。这就是我的观点。如果有人编辑、添加或显示我的错误,我会非常高兴。感谢