当抓取图像url src时,获取data:image/jpeg;base64



我正在尝试使用python urllib2从网站抓取图像url。

下面是我的代码来获取html字符串:
req = urllib2.Request(url, headers = urllib2Header)
htmlStr = urllib2.urlopen(req, timeout=15).read()

当我从浏览器中查看时,图像的html代码看起来像这样:

<img id="main-image" src="http://abcd.com/images/41Q2VRKA2QL._SY300_.jpg" alt="" rel="" style="display: inline; cursor: pointer;">
但是,当我从捕获的htmlStr中读取图像时,图像被转换为base64图像,如下所示:
<img id="main-image" src="data:image/jpeg;base64,/9j/4AAQSkZJRgABAQAAAQABAAD/2wBDAAUDBAQEAwUEBAQFBQU....">

我想知道为什么会发生这种事。是否有一种方法来获得原始图像url,而不是base64图像字符串?

谢谢。

您可以使用BeautifulSoup

例子:

import urllib2
from bs4 import BeautifulSoup
url = "www.theurlyouwanttoscrape.com"
html = urllib2.urlopen(url)
soup = BeautifulSoup(html)
img_src = soup.find('img', {'id':'main_image'})['src']

相关内容

最新更新