小贝子编程

在输入NLP模型之前，您必须清理您的测试数据吗?

这是一个与自然语言处理相关的问题。

假设我有一个标记的训练和未标记的测试集。在我清理了我的列车数据(停词、词干、标点符号等)之后，我使用这些清理过的数据来构建我的模型。

在我的测试数据上拟合时，我是否也必须使用与处理训练集相同的方式来清理测试数据文本?或者我不应该完全触摸测试数据。

谢谢!

是的，你应该对你的训练和测试数据集做同样的预处理。

是的，数据清理是机器学习或NLP问题的强制性步骤。所以你必须首先清理我们的数据，然后只需要将它提供给模型。

相关内容