Python中NLTK CHILDES语料阅读器的输出问题



我正在做一个儿童语言项目,想使用CHILDES语料库阅读器包来分析儿童语言数据。但是,这些方法不输出任何内容。我正在尝试使用XML版本的Valian语料库(下载Valian语料库XML版本的链接是[(https://childes.talkbank.org/data-xml/Eng-NA/)]

这是我尝试的代码,前4行读取语料库,并可以输出每个文件的XML文件id。但是,使用.words()、.sent()和. mlu()方法的代码不生成输出。

python~

import nltk
from nltk.corpus.reader import CHILDESCorpusReader
valian = CHILDESCorpusReader('./Valian', '.*.xml')
valian.fileids()
#print words. 
valian.words('./Valian/01a.xml')
#print sentences
valian.sents('./Valian/01a.xml')
#print MLU
valian.MLU('./Valian/01a.xml')

~

下面是输出,它要么是一个空列表,要么是0。但我期待的是一个单词列表或一个句子列表。

python~

>>> valian.words('/01a.xml')   
[]
>>> valian.sents('/01a.xml') 
[]
>>> valian.MLU('/01a.xml') 
[0]. 

~

这有点奇怪,因为我只是试图遵循NLTK文档(https://www.nltk.org/howto/childes.html)非常感谢您的帮助!

这是NLTK 3.6、3.7中的一个bug。这个问题应该在3.8版本中解决,但我也通过降级到3.5来解决这个问题。

GH跟踪问题,PR,重复问题

最新更新