做gensim.语料库wikiCorpus只工作与bz2文件?



我正在尝试加载一个wiki转储(.gz)并在gensim word2vec中使用它。我在终端中使用bzip2将其转换为bz2,但wikiicorpus类似乎拒绝该文件。有人能告诉我如何从一个简单的方式维基转储文本?由于

Gensim中的WikiCorpus实用程序类期望pages-articles转储,而不是只包含摘要的其他转储。

要读取另一种格式,您需要编写自己的代码。

你可以试试:

  • 研究WikiCorpus类的源代码& &;使用它作为自己代码的模型,调整它以从其他转储中读取不同的元素。
  • 使用其他实用工具,例如命令行工具jq或类似的工具,从感兴趣的XML元素中转储相关文本到纯文本文件中,然后可以在Python中逐行读取(进一步预处理/标记化,甚至直接提供给Gensim的LineSentence助手类)。

相关内容

  • 没有找到相关文章

最新更新