参考 keras 文档中给出的示例:https://github.com/fchollet/keras/blob/master/examples/imdb_bidirectional_lstm.py
我想使用自己的数据集而不是IMDB。在检查默认数据集的格式后,我看到句子中的每个单词都被其词汇索引所取代,该索引按降序排序。
我正在浏览这里的 keras 文档 https://keras.io/preprocessing/text/寻找一种可以实现这一目标的方法,它们似乎都不适合我。
我一直在尝试
Tokenizer.fit_on_texts
和Tokenizer.fit_on_sequences
方法。
适合文本返回
AttributeError: 'float' object has no attribute 'lower'
错误。
我的输入是一系列pandas
文本。
谁能指出我做错了什么?我查看了以下线程,但没有帮助
Keras - 文本分类 - LSTM - 如何输入文本?
谢谢!
发现错误,其中一个文本被NaN
,这导致分词器中断。把它留在这里,以防它帮助任何人:)