在NLP问题中,我如何处理预处理和看不见的数据



假设我已经预处理了一些文本数据,删除了停止字、URL等

我应该如何构建这些清理过的数据,以便将它们用于神经网络之类的分类器?是否有首选结构或经验法则?(单词袋,tf idf或其他任何东西?(此外,你能建议一些包自动完成python中的所有工作吗?

现在我训练模型,一切正常。该模型在测试集上也表现良好。

我必须如何处理看不见的数据?当我决定在现实生活项目中实现模型时,它会遇到新的数据:我是否必须存储我用于训练的结构(如tf-idf结构(,并将其应用于这些新数据?此外,让我们假设在训练/验证/测试数据中没有单词";你好";,因此它没有表示。我不得不对现实生活中的一句话进行分类,其中包含";你好";我该如何处理这个问题?

感谢所有的澄清。

您可以做些什么来创建一个类,并在内部定义之类的函数

  1. 导入数据集
  2. 数据清理
  3. 数据预处理(BOW、TfIDf(
  4. 模型建筑
  5. 预测

你可以按照下面的代码来理解

https://github.com/azeem110201/lifecycledatascienceproject

最新更新