我们应该在什么时候将数据集划分为测试和训练



我是机器学习的新手,我得到了一个数据集,所以在深入建模之前,我想知道处理数据集的确切步骤。据我所知,我们首先需要清理数据(删除重复项、处理null…(将数据可视化然后功能选择-(制作新功能(

那么,我们应该在特征选择后分割数据,然后开始建模吗?我真的很困惑!

非常感谢!

正如你在那里写的那样,机器学习的生命周期如下所示;

  1. 收集数据
  2. 研究收集的数据,哪些特征是分类的特征是数字等(学习数据类型(
  3. 开始数据操作/清理操作,如删除重复、异常值、高度相关的事物(即,如果存在两个功能雄性和雌性删除其中一个,因为如果你是不是男性,你是100%的女性。(
  4. 可视化您的数据以观察异常值、相关性等
  5. 如果你有分类数据,你需要把它们转换成数字
  6. 分离从属特征和独立特征
  7. 功能选择,选择一些最重要的功能
  8. 根据你有多少样品来决定该做什么
  9. 如果不是太多,则意味着每个样本/记录对您都很重要,并考虑交叉验证
  10. 拆分数据后,再次检查数据。如果你的特征有不同的单位,并且它们之间有很大的差异,你应该考虑做";标准化或标准化";使用相同单位/比例的方法
  11. 一切都已完成。决定要选择的评估指标。确定你的项目目标。你想要什么
  12. 然后选择型号。在拟合和预测过程之后,检查您的评估模型、分数。哪一个得分最高?(在做这件事的时候,我建议你计算时间。时间真的很重要。你也应该考虑它。(

一个准确的测量值胜过一千个专家意见

您可以在github中查看我的一个项目=>https://github.com/erolerdogan/Property-Maintenance-Fines

我希望这些步骤能帮助你更多地理解。这就是我的观点。如果有人编辑、添加或显示我的错误,我会非常高兴。感谢

最新更新