Python Selenium BS4,不是从HTTPS URL下载图像,而是从带有服务器目录的SRC下载图像



我想自动从网站下载一些图像

我终于走近并得到了图像的源

html = driver.page_source
soup = BeautifulSoup(html, 'html.parser')
td_soup = soup.find('td', {'colspan' : '8'})
src = td_soup.find('img').get('src')

但问题是,当我打印(src(时,这就是我得到的

'/CtxApp/resource/6/1566779160637815196.jpg'

我对网络一般了解不多,但我认为 src 代表服务器映像的目录。

在这种情况下,有什么方法可以下载此文件吗? 我查找了许多关于下载常见 http url 的问题,但不是这种情况。 如果我尝试按照他们的建议下载文件,我会得到以下

ValueError: unknown url type: '/CtxApp/resource/6/1566779160637815196.jpg'

您需要向此字符串添加基本 URL。

base_url- 您从哪里拍摄图像的URL。例如:
base_url = https://images.unsplash.com- 您想从本网站拍摄图像。
Beautiful soup返回链接作为/photo-1568312442641-d6c790fdf0f6

src = /photo-1568312442641-d6c790fdf0f6
ready_img_link = base_url + src

ready_img_linkhttps://images.unsplash.com/photo-1568312442641-d6c790fdf0f6
请阅读本文 - https://en.wikipedia.org/wiki/Uniform_Resource_Identifier#Generic_syntax

最新更新