Python Selenium BS4，不是从HTTPS URL下载图像，而是从带有服务器目录的SRC下载图像

我想自动从网站下载一些图像

我终于走近并得到了图像的源

html = driver.page_source
soup = BeautifulSoup(html, 'html.parser')
td_soup = soup.find('td', {'colspan' : '8'})
src = td_soup.find('img').get('src')

但问题是，当我打印(src(时，这就是我得到的

'/CtxApp/resource/6/1566779160637815196.jpg'

我对网络一般了解不多，但我认为 src 代表服务器映像的目录。

在这种情况下，有什么方法可以下载此文件吗？我查找了许多关于下载常见 http url 的问题，但不是这种情况。如果我尝试按照他们的建议下载文件，我会得到以下

ValueError: unknown url type: '/CtxApp/resource/6/1566779160637815196.jpg'

您需要向此字符串添加基本 URL。

base_url- 您从哪里拍摄图像的URL。例如：
base_url = https://images.unsplash.com- 您想从本网站拍摄图像。
Beautiful soup返回链接作为/photo-1568312442641-d6c790fdf0f6，

src = /photo-1568312442641-d6c790fdf0f6
ready_img_link = base_url + src

ready_img_link将https://images.unsplash.com/photo-1568312442641-d6c790fdf0f6
请阅读本文 - https://en.wikipedia.org/wiki/Uniform_Resource_Identifier#Generic_syntax

相关内容

最新更新

热门标签：