如何.pdf从...<td>类 + 点击...<td>

谁能给我点提示怎么找路?我需要得到pdf文件的链接+文本("说明(DE)")从这个标签:

<td class="col-download-data" onclick="openPdf('https://www.roco.cc/static/version1662032330/frontend/Casisoft/Roco/en_GB/doc/AN/1/DE/62200-BA_7937.pdf');">Instructions (DE)</td>

不，我得到这样的输出:openPdf("https://www.roco.cc/static/version1662032330/frontend/Casisoft/Roco/en_GB/doc/ET/1/DE/69255_11395.pdf");

下面是我的代码:

import requests
from bs4 import BeautifulSoup
import pandas as pd
import xlsxwriter
productlinks = []
for x in range(1, 2):
r = requests.get(
f'https://www.roco.cc/ren/products/locomotives/steam-locomotives.html?p={x}&verfuegbarkeit_status=41%2C42%2C43%2C45%2C44')
soup = BeautifulSoup(r.content, 'lxml')
productlist = soup.find_all('li', class_='item product product-item')
for item in productlist:
for link in item.find_all('a', class_='product-item-link', href=True):
productlinks.append(link['href'])
for url in productlinks:
r = requests.get(url, allow_redirects=False)
content = BeautifulSoup(r.text, 'lxml')
for tag in content.find_all('a'):
on_click = tag.get('onclick')
if on_click:
print(on_click)

for url in productlinks:
r = requests.get(url, allow_redirects=False)
content = BeautifulSoup(r.text, 'lxml')
for tag in content.find_all('a'):
on_click = tag.get('onclick')
if on_click:
pdf = re.findall(r"'([^']*)'", on_click)
print(pdf)

相关内容

最新更新

热门标签：