在textacy中创建空语料库



我想在textacy中创建一个空的语料库,然后通过用数据填充它

corpus.add(doc)

但每次我试图创建一个空的语料库时,我都无法保存它,反而出现了以下错误:

IndexError: list index out of range

我尝试在创建语料库时不提供任何数据,或者将None作为数据:

corpus = textacy.Corpus(lang=locale)
corpus = textacy.Corpus(lang=locale, data=None)
corpus.save(path) # this line results in the index error

如果有人能帮我就太好了:(

我自己刚刚试过。locale究竟是什么?我执行了以下操作:

  1. 为德语创建了spacy语言对象

nlp = spacy.load("de_core_news_lg")

  1. ,然后将其传递给

corpus = textacy.Corpus(nlp)

在那之后,我可以迭代我的文档,并逐项添加它们。

但是,我不建议这样做。我已经执行了两个场景来处理15000条短评论:

  • 我首先将文档预处理为列表,并将其直接放入textacy.Corpus(nlp, data=preprocessed_list)中。这带我参观了22 s
  • 执行相同的逻辑,但通过创建一个空语料库并向其中添加每一项,持续了1 min 26 s

最新更新