我使用的是python的nltk库,更具体地说是语料库停止词,我希望确保传递给nltk.corpus.stopwords.words()
函数的语言是根据列表的有效语言条目。
我的问题是,是否有一种方法可以检索可以提供给该函数的有效参数列表?
转到下载停止字的位置(默认情况下为~/nltk_data/corpora/stopwords
(。
该索引中的每个文件都是一个停止字列表,并在corpus.stopwords.words
函数中按名称引用。
因为它们是纯文本文件,所以很容易修改或添加自己的文件。
如果你只是想不崩溃,也许
language = 'blahblah'
try:
words = ntlk.corpus.stopwords.words(language)
except OSError:
print('invalid language', language)