小贝子编程

是否可以从通用爬虫 API 的网络版本中获取标题

本文关键字：网络版网络版本标题获取 API 爬虫是否 amazon-web-services api web-crawler common-crawl
更新时间 : 2023-09-09
英文 : Is it possible to get titles from the webversion of Common Crawler API?

我正在尝试从网页中获取网址，标题和语言。幸运的是，存在 CC API https://github.com/webrecorder/pywb/wiki/CDX-Server-API#api-reference。但遗憾的是，我没有注意到获得标题的方法。

目前，我将CC查询为（例如）http://index.commoncrawl.org/CC-MAIN-2018-47-index？url=www.example.com/*&output=json，其中我得到"url"和"语言"信息。

有没有办法通过 API 查询 CC，而无需下载每个 warc 并获取标题？

谢谢！

No.网页标题未在常见爬网的 URL 索引中编入索引（既不在 CDX 索引中，也不在列索引中）。

最新更新

通过TCP协议将信号数据从gnuradio传输到Arduino Due，在引脚DAC0上产生信号 &
如何在discord-py-斜线命令下拉列表中为项目创建自定义ID ?
如何处理鼠标滚轮事件在机器人框架使用浏览器库?
从JS到PHP获取一个值
在Powershell中传递给函数时如何在参数中添加引号
Ionic React:在React Hooks上实现InAppPurchase 2
清理脚本(而不是在提供的路径中搜索)总是命中系统根目录或运行它的根文件夹
无法加载要从中扩展的配置"airbnb" - gitlab ci
我如何将任何方程输入到Python中的标准形式?
在Swift中从实时数据库Firebase中获取数据
Devstack单一接口不能在ubuntu 20.04上工作
Typescript没有安装
函数式语言类型推断混乱
使用Python从大文件解析数字数据时提高速度
如何从Multipass共享文件夹到主机?
从CMD或批处理文件中禁用"Notify me when the clock changes"设置
在Dockerfile中设置——net=host ?
如何在React中将arrayBuffer转换为JSON
是否有可能将html响应转换为json在扑动?
快速过滤numpy数组值的方法
C保存字符串的数组列表
需要minio film配置建议
如何应用CSS字体大小"relative to what it would be originally"？
该应用程序在个人帐户中未绑定脚本时被阻止错误
将原始查询转换为django orm
如何从出现次数和值的列表中创建一个新列表
使用Julia中的Julia Broadcasting根据数组的索引计算数组值
在javascript中使用条件更新嵌套数组
for循环多个条件
将第一列中的名称行转换为r中的列

是否可以从通用爬虫 API 的网络版本中获取标题

相关内容

最新更新

热门标签：