零碎错误:请求url中缺少方案

我在运行零碎的时遇到一些URL问题

ValueError: Missing scheme in request url: mailto:?body=https%3A%2F%2Fiview.abc.net.au%2Fshow%2Finsiders
[scrapy.core.scraper:168|ERROR] Spider error processing <GET https://iview.abc.net.au/show/four-corners/series/2020/video/NC2003H028S00> (referer: None)

以下是我的设置：

"base_urls" : [
{
# Start crawling from 
"url": "https://www.abc.net.au/",
# Overwrite the default crawler and use th RecursiveCrawler instead
"crawler": "RecursiveCrawler",

以下设置可以正常工作

"base_urls" : [
{
# Start crawling from 
"url": "https://www.afr.com/",
# Overwrite the default crawler and use th RecursiveCrawler instead
"crawler": "RecursiveCrawler",

不确定我在这里遗漏了什么

由于内容被抓取，您有不同的行为。问题是，在某个时刻，你的蜘蛛试图产生一个对这个URL的请求：

mailto:?body=https%3A%2F%2Fiview.abc.net.au%2Fshow%2Finsiders

正确的URL可能是：

https://iview.abc.net.au/show/insiders

这可能是你刮错了字段，或者在这个"；url"；检索到。

相关内容

最新更新

热门标签：