使用Haskell下载维基百科标记

使用http-conduit，我想下载任何页面的原始维基媒体标记，例如维基百科页面Stack Overflow。

此外，我希望解决方案适用于en.wikipedia.org以外的维基媒体页面，例如de.wikibooks.org。

注:这个问题在Q&A表格中立即得到了回答，因此故意不显示研究努力!

这个问题使用http-conduits中的查询参数，如前面的SO答案所述。

我们将使用SO中描述的方法来下载页面的标记内容。

虽然这个任务可以使用mediawiki，但使用?action=raw方法而不显式使用API似乎要简单得多。

为了支持不同的页面(例如en.wikimedia.org)，我写了两个函数getWikipediaPageMarkup和getEnwikiPageMarkup，前者更通用，允许使用自定义域(任何域都应该工作，假设Mediawiki安装在/wiki下)。

{-# LANGUAGE OverloadedStrings #-}
import Network.HTTP.Conduit
import Data.ByteString (ByteString)
import qualified Data.ByteString.Char8 as B
import qualified Data.ByteString.Lazy.Char8 as LB
import Network.HTTP.Types (urlEncode)
import Data.Monoid ((<>))
-- | Get the Mediawiki marup
getWikipediaPageMarkup :: ByteString -- ^ The wikipedia domain, e.g. "en.wikipedia.org"
                       -> ByteString -- ^ The wikipedia page title to download
                       -> IO LB.ByteString -- ^ The wikipedia page markup
getWikipediaPageMarkup domain page = do
    let url = "https://" <> domain <> "/wiki/" <> urlEncode True page
    request <- parseUrl $ B.unpack url
    let request' = setQueryString [("action", Just "raw")] request
    fmap responseBody $ withManager $ httpLbs request'
-- | Like @getWikipediaPageMarkup@, but hardcoded to 'en.wikipedia.org'
getEnwikiPageMarkup :: ByteString -> IO LB.ByteString
getEnwikiPageMarkup = getWikipediaPageMarkup "en.wikipedia.org"

请注意，为了编译代码，需要最近的http-conduit版本(最低:2.1，用2.1.4测试)。

相关内容

最新更新

热门标签：