我正在运行一个NLP示例,使用词干函数作为类方法。
import nltk
class IndexedText(object):
def __init__(self, stemmer, text):
self._text = text
self._stemmer = stemmer
self._index = nltk.Index((self._stem(word), i) for (i, word) in enumerate(text))
def concordance(self, word, width=40):
key = self._stem(word)
wc = width/4 # words of context
print (self._index[key])
for i in self._index[key]:
lcontext = ' '.join(self._text[i-wc:i])
rcontext = ' '.join(self._text[i:i+wc])
ldisplay = '%*s' % (width, lcontext[-width:])
rdisplay = '%-*s' % (width, rcontext[:width])
print (ldisplay, rdisplay)
def _stem(self, word):
return self._stemmer.stem(word).lower()
porter = nltk.PorterStemmer()
grail = nltk.corpus.webtext.words('grail.txt')
text = IndexedText(porter, grail)
现在我对单词"lie"使用索引函数,如下所示:
text.concordance('lie')
它给了我如下错误:
TypeError: slice indices must be integers or None or have an __index__ method
其中 index['lie'] 将输出生成为所有整数:[1824, 6451, 7038, 7080, 8450, 13860, 13965, 16684]
我注意到该行中的某些内容:
lcontext = ' '.join(self._text[i-wc:i])
这里的"i"类型似乎是一个元组。 您可能需要对其进行修改。