我正在尝试加载一个wiki转储(.gz)并在gensim word2vec中使用它。我在终端中使用bzip2将其转换为bz2,但wikiicorpus类似乎拒绝该文件。有人能告诉我如何从一个简单的方式维基转储文本?由于
Gensim中的WikiCorpus
实用程序类期望pages-articles
转储,而不是只包含摘要的其他转储。
要读取另一种格式,您需要编写自己的代码。
你可以试试:
- 研究WikiCorpus类的源代码& &;使用它作为自己代码的模型,调整它以从其他转储中读取不同的元素。
- 使用其他实用工具,例如命令行工具
jq
或类似的工具,从感兴趣的XML元素中转储相关文本到纯文本文件中,然后可以在Python中逐行读取(进一步预处理/标记化,甚至直接提供给Gensim的LineSentence
助手类)。