预处理 keras LSTM 的文本数据



参考 keras 文档中给出的示例:https://github.com/fchollet/keras/blob/master/examples/imdb_bidirectional_lstm.py

我想使用自己的数据集而不是IMDB。在检查默认数据集的格式后,我看到句子中的每个单词都被其词汇索引所取代,该索引按降序排序。

我正在浏览这里的 keras 文档 https://keras.io/preprocessing/text/寻找一种可以实现这一目标的方法,它们似乎都不适合我。

我一直在尝试

Tokenizer.fit_on_textsTokenizer.fit_on_sequences方法。

适合文本返回

AttributeError: 'float' object has no attribute 'lower'

错误。

我的输入是一系列pandas文本。

谁能指出我做错了什么?我查看了以下线程,但没有帮助

Keras - 文本分类 - LSTM - 如何输入文本?

谢谢!

发现错误,其中一个文本被NaN,这导致分词器中断。把它留在这里,以防它帮助任何人:)

最新更新