这是一个与自然语言处理相关的问题。
假设我有一个标记的训练和未标记的测试集。在我清理了我的列车数据(停词、词干、标点符号等)之后,我使用这些清理过的数据来构建我的模型。
在我的测试数据上拟合时,我是否也必须使用与处理训练集相同的方式来清理测试数据文本?或者我不应该完全触摸测试数据。
谢谢!
是的,你应该对你的训练和测试数据集做同样的预处理。
是的,数据清理是机器学习或NLP问题的强制性步骤。所以你必须首先清理我们的数据,然后只需要将它提供给模型。
注册。测试和训练数据清洗——>你可以清除两个数据,这样做没有害处。