我想从此网站复制文本(https://www.reclamgymnasium.de/mobil/plankl.html?Klasse=9.2),以便以后使用py脚本。我该怎么做?(它确实无法满足请求…(
如果你在谷歌上搜索python网络抓取,你会发现很多信息!
基本上你从执行开始
response = requests.get(url)
它为您提供网页的html内容。现在,您可以使用beautifulsoup浏览内容以获得所需内容。
首先,我们需要创建一个汤:
soup = beautifulsoup(response.text, "lxml")
我们现在可以在其中找到内容。例如,如果我们想在网页中找到所有的url,你可以使用:
soup.find_all('a')
以下是打印网页所有url的完整示例代码:
import requests
from bs4 import BeautifulSoup
url = "https://google.com"
response = requests.get(url)
soup = BeautifulSoup(response.text, "lxml")
for link in soup.find_all('a'):
print(link)
以下是beautifulsoup的文档:https://www.crummy.com/software/BeautifulSoup/bs4/doc/
由于Johann所寻找的信息不是静态的,而是动态的,我正在做第二个答案来解释我是如何获得这些信息的。
访问网页时https://www.reclamgymnasium.de/mobil/plankl.html?Klasse=9.2
- 打开浏览器的开发工具(在我的情况下,它是firefox,我按F12打开(
- 当开发工具打开时;网络";选项卡,此时该选项卡将为空
- 单击重新加载箭头或按F5键重新加载页面
- 现在我们可以看到在";网络";选项卡
- 当我们寻找在页面内容之后加载的数据时;xml";或";json";";类型";列
- 右键单击具有正确类型的响应;在新选项卡中打开页面">
- 如果多个响应匹配,请测试所有匹配项,直到找到您要查找的信息
在这种情况下,我们发现https://www.reclamgymnasium.de/mobil/mobdaten/PlanKl20210618.xml?_=1623933794858