预处理 keras LSTM 的文本数据

参考 keras 文档中给出的示例：https://github.com/fchollet/keras/blob/master/examples/imdb_bidirectional_lstm.py

我想使用自己的数据集而不是IMDB。在检查默认数据集的格式后，我看到句子中的每个单词都被其词汇索引所取代，该索引按降序排序。

我正在浏览这里的 keras 文档 https://keras.io/preprocessing/text/寻找一种可以实现这一目标的方法，它们似乎都不适合我。

我一直在尝试

Tokenizer.fit_on_texts和Tokenizer.fit_on_sequences方法。

适合文本返回

AttributeError: 'float' object has no attribute 'lower'

错误。

我的输入是一系列pandas文本。

谁能指出我做错了什么？我查看了以下线程，但没有帮助

Keras - 文本分类 - LSTM - 如何输入文本？

谢谢！

发现错误，其中一个文本被NaN，这导致分词器中断。把它留在这里，以防它帮助任何人:)

相关内容