小贝子编程

我们应该在什么时候将数据集划分为测试和训练

本文关键字：测试划分数据集什么时候我们 split dataset
更新时间 : 2023-09-18
英文 : When should we split the dataset into test and train?

我是机器学习的新手，我得到了一个数据集，所以在深入建模之前，我想知道处理数据集的确切步骤。据我所知，我们首先需要清理数据(删除重复项、处理null…(将数据可视化然后功能选择-(制作新功能(

那么，我们应该在特征选择后分割数据，然后开始建模吗？我真的很困惑！

非常感谢！

正如你在那里写的那样，机器学习的生命周期如下所示；

收集数据
研究收集的数据，哪些特征是分类的特征是数字等(学习数据类型(
开始数据操作/清理操作，如删除重复、异常值、高度相关的事物(即，如果存在两个功能雄性和雌性删除其中一个，因为如果你是不是男性，你是100%的女性。(
可视化您的数据以观察异常值、相关性等
如果你有分类数据，你需要把它们转换成数字
分离从属特征和独立特征
功能选择，选择一些最重要的功能
根据你有多少样品来决定该做什么
如果不是太多，则意味着每个样本/记录对您都很重要，并考虑交叉验证
拆分数据后，再次检查数据。如果你的特征有不同的单位，并且它们之间有很大的差异，你应该考虑做"；标准化或标准化"；使用相同单位/比例的方法
一切都已完成。决定要选择的评估指标。确定你的项目目标。你想要什么
然后选择型号。在拟合和预测过程之后，检查您的评估模型、分数。哪一个得分最高？(在做这件事的时候，我建议你计算时间。时间真的很重要。你也应该考虑它。(

一个准确的测量值胜过一千个专家意见

您可以在github中查看我的一个项目=>https://github.com/erolerdogan/Property-Maintenance-Fines

我希望这些步骤能帮助你更多地理解。这就是我的观点。如果有人编辑、添加或显示我的错误，我会非常高兴。感谢

相关内容

最新更新