如果单词小于 X，则在列表理解中进行词形还原

我有以下函数，它接收单词标记列表，以 WordNet 可读的格式收集词性标签，并使用它来对每个标记进行词形还原 - 我将其应用于单词标记列表列表：

from nltk import pos_tag
from nltk.stem import WordNetLemmatizer
from nltk.corpus import wordnet as wn
def getWordNetPOS (POStag):
def is_noun(POStag):
return POStag in ['NN', 'NNS', 'NNP', 'NNPS']
def is_verb(POStag):
return POStag in ['VB', 'VBD', 'VBG', 'VBN', 'VBP', 'VBZ']
def is_adverb(POStag):
return POStag in ['RB', 'RBR', 'RBS']
def is_adjective(POStag):
return POStag in ['JJ', 'JJR', 'JJS']
if is_noun(POStag):
return wn.NOUN
elif is_verb(POStag):
return wn.VERB
elif is_adverb(POStag):
return wn.ADV
elif is_adjective(POStag):
return wn.ADJ
else:
# if not noun, verb, adverb or adjective, return noun
return wn.NOUN
# lemmatize word tokens
def lemmas (wordtokens):
lemmatizer = WordNetLemmatizer()
POStag = pos_tag(wordtokens)
wordtokens = [lemmatizer.lemmatize(token[0], getWordNetPOS(token[1]))
for token in POStag]
return wordtokens
lemmatizedList = []
mylist = [['this','is','my','first','sublist'],['this','is','my','second','sublist']]
for ls in mylist:
x = lemmas(ls)
lemmatizedList.append(x)

我想找到一种方法将词形还原限制为设定长度(即 2(的标记，但至关重要的是，我还希望保留任何小于此阈值的单词的原始形式。我得到的最接近的是将if len(token[0])>2添加到lemmas函数中wordtokens列表理解的末尾，但这只返回词形还原标记。同样，我试图在if语句后添加类似于else token for token in POStag的内容，但我得到一个语法错误。为了清楚起见，这就是我的意思：

wordtokens = [lemmatizer.lemmatize(token[0], getWordNetPOS(token[1]))
for token in POStag if len(token[0])>2
else token for token in POStag]

我希望这是一个简单的错误，并且是我的一点蟒蛇盲点。

这实际上只是一个"盲点"。

您必须稍微重组列表理解和条件：

wordtokens = [lemmatizer.lemmatize(token[0], getWordNetPOS(token[1])) if len(token[0]) > 2 else token
for token in POStag]

解释：

列表理解必须保留所有令牌，因此您不想添加带有if的条件。

wordtokens = [<tokenoperation> for token in POStag]

现在，您想根据令牌长度更改操作，因此您只需更改tokenoperation的部分，以便它仅修改令牌：

lemmatizer.lemmatize(token[0], getWordNetPOS(token[1])) if len(token[0]) > 2 else token

你也可以添加一些这样的解释，以使其更清楚：

wordtokens = [
(
lemmatizer.lemmatize(token[0], getWordNetPOS(token[1]))
if len(token[0]) > 2
else token
)
for token in POStag
]

一些文档/示例：请参阅此 realpython.com 页面上的使用条件逻辑部分。

相关内容

最新更新

热门标签：