Python 美丽的汤 img 标签在 div 解析错误的链接显示

我有这个代码：

import urllib
import urllib.request
from bs4 import BeautifulSoup
from urllib.request import Request, urlopen
import re
theurl= 'http://es.ninemanga.com/chapter/Dragon%20Ball%20Multiverse/279006.html'
req = Request(theurl  + '.html', headers={'User-Agent': 'Mozilla/5.0'})
thepage = urlopen(req).read()
soup = BeautifulSoup(thepage, "html.parser")

for divs in soup.findAll('div', {"class": "pic_box"}):
    temp = divs.find('img', {"id" : "manga_pic_1"})
    temp1 = temp.get('src')
    print(temp1 + "n")

我想获取带有class pic_box的所有div标签，并在其中获取所有img标签及其src

我已经正确地完成了soup.findAll('div', {"class": "pic_box"})然后temp.get('src')但不知何故我得到：

http://a8.ninemanga.com/es_manga/43/555/279006/4c58c372ca4561627e5a01f6c841290e.jpg

而不是：

https://c5.ninemanga.com/es_manga/43/555/279006/939559ac8d7af80cf6b4ead0ada4f718.jpg

他们是以某种方式阻止了我的请求还是我在这里做错了什么？

重新测试它

url变量中的引用链接，我想从中提取"src"

看起来他们可以检测抓取请求并阻止它们。即使使用假代理也不起作用（我试过了）。尝试类似的东西硒，它可以自动化浏览器活动并通过浏览器本身下载它。

图像具有唯一的类属性 - 'manga_pic'获取具有manga_pic类的图像

相关内容

最新更新

热门标签：