我正在尝试从网页中获取网址,标题和语言。幸运的是,存在 CC API https://github.com/webrecorder/pywb/wiki/CDX-Server-API#api-reference。但遗憾的是,我没有注意到获得标题的方法。
目前,我将CC查询为(例如)http://index.commoncrawl.org/CC-MAIN-2018-47-index?url=www.example.com/*&output=json,其中我得到"url"和"语言"信息。
有没有办法通过 API 查询 CC,而无需下载每个 warc 并获取标题?
谢谢!
No.网页标题未在常见爬网的 URL 索引中编入索引(既不在 CDX 索引中,也不在列索引中)。