从维基百科信息框(java)获取所有属性



我希望从维基百科页面(仅包含infobox)获得所有infobox属性和值。使用简单的WebRequest解析信息框会给我带来太多的垃圾信息。因此,我考虑使用dbpedia并使用Jena (SPARQL)获取数据。我该怎么做呢?是否有一个简单的查询,将给我所有属性作为键值对?或者RDF,然后将其转换为我需要的内容。

dbpedia有一个公共SPARQL端点,位于http://dbpedia.org/sparql,您可以使用它来实验。在http://wiki.dbpedia.org/OnlineAccess上描述了构建查询的示例和各种其他工具。你也可以下载数据集在本地尝试查询。

澄清一下,RDF是dbpedia发布时使用的数据格式。SPARQL是查询RDF的查询语言。Jena是一个包含RDF数据存储和SPARQL引擎的特定实现。

尝试使用来自http://wiki.dbpedia.org/Downloads37的转储。例如"Raw Infobox Properties"

最新更新