从维基百科转储中提取并行文本



在我的研究项目中,我需要从维基百科转储中提取并行文档。换句话说,我已经下载了英语和意大利语维基百科转储。现在,我想解析它们,对于英语转储中的每篇文章,在意大利语转储中找到其翻译(应通过跨语言链接完成),并将它们存储在同一个文件中,以便之后进行一些跨语言文本处理。

我搜索了一下,但我找不到任何用于此目的的代码。但是,由于我看过许多作者也做过同样的事情的论文,我认为在从头开始发明轮子之前,可能值得先问一下。

任何想法都是值得赞赏的。

谢谢。

使用此维基百科 api, action=query&query=langlinks

例:https://en.wikipedia.org/w/api.php?action=query&prop=langlinks&lllang=it&titles=Calculus|面包|生物学

回复给出了相应的意大利语文章。

最新更新