在输入NLP模型之前,您必须清理您的测试数据吗?



这是一个与自然语言处理相关的问题。

假设我有一个标记的训练和未标记的测试集。在我清理了我的列车数据(停词、词干、标点符号等)之后,我使用这些清理过的数据来构建我的模型。

在我的测试数据上拟合时,我是否也必须使用与处理训练集相同的方式来清理测试数据文本?或者我不应该完全触摸测试数据。

谢谢!

是的,你应该对你的训练和测试数据集做同样的预处理。

是的,数据清理是机器学习或NLP问题的强制性步骤。所以你必须首先清理我们的数据,然后只需要将它提供给模型。

注册。测试和训练数据清洗——>你可以清除两个数据,这样做没有害处。

最新更新