是否可以从通用爬虫 API 的网络版本中获取标题



我正在尝试从网页中获取网址,标题和语言。幸运的是,存在 CC API https://github.com/webrecorder/pywb/wiki/CDX-Server-API#api-reference。但遗憾的是,我没有注意到获得标题的方法。

目前,我将CC查询为(例如)http://index.commoncrawl.org/CC-MAIN-2018-47-index?url=www.example.com/*&output=json,其中我得到"url"和"语言"信息。

有没有办法通过 API 查询 CC,而无需下载每个 warc 并获取标题?

谢谢!

No.网页标题未在常见爬网的 URL 索引中编入索引(既不在 CDX 索引中,也不在列索引中)。

最新更新