使用NLTK POS标记器时，zip文件错误不良

我正在尝试使用nltk pos-tagger，但是正在获取" zipfile.badzipfile：文件不是zip文件"错误。

错误来自此代码：

import nltk
sentence = "I love python"
tokens = nltk.word_tokenize(sentence)
pos_tags = nltk.pos_tag(tokens)
print nltk.ne_chunk(pos_tags, binary=True)

我发现这个问题与我的问题有关。不幸的是，我无法下载整个语料库，因为我在服务器上工作并且有很多内存限制。有人可以将我指向我需要的特定文件，以便我只能下载一个而不是整个Corpora？

（我正在使用Python 2.7.6）

尝试以下：

nltk.download("maxent_treebank_pos_tagger")
nltk.download("maxent_ne_chunker")
nltk.download("punkt")

前两个分别用于POS标记和命名实体。您在代码示例中不使用的第三个，但是对于nltk.sent_tokenize()，您需要它，这将纯文本分解为句子。由于您将使用POS标签，因此我也下载了这些（它们很小）：

nltk.download(["tagsets", "universal_tagset"])

如果您确实有一些空间，则下载整个"书"集合将为您提供探索NLTK所需的一切。

相关内容

最新更新

热门标签：