我想在textacy中创建一个空的语料库,然后通过用数据填充它
corpus.add(doc)
但每次我试图创建一个空的语料库时,我都无法保存它,反而出现了以下错误:
IndexError: list index out of range
我尝试在创建语料库时不提供任何数据,或者将None作为数据:
corpus = textacy.Corpus(lang=locale)
corpus = textacy.Corpus(lang=locale, data=None)
corpus.save(path) # this line results in the index error
如果有人能帮我就太好了:(
我自己刚刚试过。locale
究竟是什么?我执行了以下操作:
- 为德语创建了spacy语言对象
nlp = spacy.load("de_core_news_lg")
- ,然后将其传递给
corpus = textacy.Corpus(nlp)
在那之后,我可以迭代我的文档,并逐项添加它们。
但是,我不建议这样做。我已经执行了两个场景来处理15000条短评论:
- 我首先将文档预处理为列表,并将其直接放入
textacy.Corpus(nlp, data=preprocessed_list)
中。这带我参观了22 s
- 执行相同的逻辑,但通过创建一个空语料库并向其中添加每一项,持续了
1 min 26 s