在NLP问题中，我如何处理预处理和看不见的数据

假设我已经预处理了一些文本数据，删除了停止字、URL等

我应该如何构建这些清理过的数据，以便将它们用于神经网络之类的分类器？是否有首选结构或经验法则？(单词袋，tf idf或其他任何东西？(此外，你能建议一些包自动完成python中的所有工作吗？

现在我训练模型，一切正常。该模型在测试集上也表现良好。

我必须如何处理看不见的数据？当我决定在现实生活项目中实现模型时，它会遇到新的数据：我是否必须存储我用于训练的结构(如tf-idf结构(，并将其应用于这些新数据？此外，让我们假设在训练/验证/测试数据中没有单词"；你好"；，因此它没有表示。我不得不对现实生活中的一句话进行分类，其中包含"；你好"；我该如何处理这个问题？

感谢所有的澄清。

您可以做些什么来创建一个类，并在内部定义之类的函数

导入数据集
数据清理
数据预处理(BOW、TfIDf(
模型建筑
预测

你可以按照下面的代码来理解

https://github.com/azeem110201/lifecycledatascienceproject

相关内容

最新更新

热门标签：