试图抓取wikitravel



我正在尝试收集特定数据的wiki旅行。比如气候、盖廷等。我已经设法通过特殊导出从他们那里获得了xml。

http://wikitravel.org/en/Special:Export/San_Francisco我得到了xml形式的数据,但它是在wiki标记中,我尝试浏览解决方案来获取文本,但找不到合适的解决方案。

我试着用正则表达式编写一个php函数,这样我就可以将其转换为html,但它的转换方式不统一,因此很难选择特定的数据。

我还试着写mediawiki url,这样我就可以编程了http://wikitravel.org/en/api.php?format=xml&action=查询&title=主%20页面&prop=修订&rvprop=内容但它不起作用。

你能帮我做这个吗。有人成功地抓取了维基百科吗。我有一个教程或任何其他技术,我可以参考。

这里有一个类似的问题:在哪里可以找到一个好的PHP MediaWiki标记解析器?

我还发现:https://github.com/codeholic/w/blob/master/creole.php来自:http://www.ivan.fomichev.name/2010/02/php-creole-10-wiki-markup-parser.html

这听起来像是一个令人沮丧的努力,我祝你好运!

Wikitravel的MediaWiki API位于http://wikitravel.org/wiki/en/api.php,所以试试这个:

http://wikitravel.org/wiki/en/api.php?format=xml&action=查询&title=主%20页面&prop=修订&rvprop=内容

您将希望使用API客户端,请参阅http://www.mediawiki.org/wiki/API:Client_code以供选择。还要注意的是,Wikitravel使用了非常旧版本的MediaWiki(1.11),因此现代API中的许多操作都不起作用。

相关内容

  • 没有找到相关文章

最新更新