用nltk把语料库转换成文本



你好,我使用NLTK 下载了一个语料库

phrase = nltk.corpus.conll2002.iob_sents('esp.testb')[0]

该回报:

[('La','DA','B-LOC'(,('Coruña','NC','I-LOC'(、(',','Fc','O'(,('23','Z','O'(,('may','NC','O'(,('(','Fpa','O'(,'NP','B-ORG'(,

问题是如何使用以下代码获得完整的句子:

' '.join([w[0] for w in phrase])
phrase = ' '.join([w[0] for w in phrase])

但我得到了这个

"拉科鲁尼亚,5月23日(EFECOM(。">

而不是

"拉科鲁尼亚,5月23日(EFECOM(。">

如何获得第二句?

感谢

CoNLL语料库通常不包含空间信息,因此不可能完美地重建原始句子。

您可以使用启发式方法,不在逗号、右括号或其他字符之前放置空格,但通常用空格分隔所有字符更容易。

最新更新