你好,我使用NLTK 下载了一个语料库
phrase = nltk.corpus.conll2002.iob_sents('esp.testb')[0]
该回报:
[('La','DA','B-LOC'(,('Coruña','NC','I-LOC'(、(',','Fc','O'(,('23','Z','O'(,('may','NC','O'(,('(','Fpa','O'(,'NP','B-ORG'(,
问题是如何使用以下代码获得完整的句子:
' '.join([w[0] for w in phrase])
phrase = ' '.join([w[0] for w in phrase])
但我得到了这个
"拉科鲁尼亚,5月23日(EFECOM(。">
而不是
"拉科鲁尼亚,5月23日(EFECOM(。">
如何获得第二句?
感谢
CoNLL语料库通常不包含空间信息,因此不可能完美地重建原始句子。
您可以使用启发式方法,不在逗号、右括号或其他字符之前放置空格,但通常用空格分隔所有字符更容易。