如何用python从某个网站复制文本



我想从此网站复制文本(https://www.reclamgymnasium.de/mobil/plankl.html?Klasse=9.2),以便以后使用py脚本。我该怎么做?(它确实无法满足请求…(

如果你在谷歌上搜索python网络抓取,你会发现很多信息!

基本上你从执行开始

response = requests.get(url)

它为您提供网页的html内容。现在,您可以使用beautifulsoup浏览内容以获得所需内容。

首先,我们需要创建一个汤:

soup = beautifulsoup(response.text, "lxml")

我们现在可以在其中找到内容。例如,如果我们想在网页中找到所有的url,你可以使用:

soup.find_all('a')

以下是打印网页所有url的完整示例代码:

import requests
from bs4 import BeautifulSoup
url = "https://google.com"
response = requests.get(url)
soup = BeautifulSoup(response.text, "lxml")
for link in soup.find_all('a'):
print(link)

以下是beautifulsoup的文档:https://www.crummy.com/software/BeautifulSoup/bs4/doc/

由于Johann所寻找的信息不是静态的,而是动态的,我正在做第二个答案来解释我是如何获得这些信息的。

访问网页时https://www.reclamgymnasium.de/mobil/plankl.html?Klasse=9.2

  • 打开浏览器的开发工具(在我的情况下,它是firefox,我按F12打开(
  • 当开发工具打开时;网络";选项卡,此时该选项卡将为空
  • 单击重新加载箭头或按F5键重新加载页面
  • 现在我们可以看到在";网络";选项卡
  • 当我们寻找在页面内容之后加载的数据时;xml";或";json";";类型";列
  • 右键单击具有正确类型的响应;在新选项卡中打开页面">
  • 如果多个响应匹配,请测试所有匹配项,直到找到您要查找的信息

在这种情况下,我们发现https://www.reclamgymnasium.de/mobil/mobdaten/PlanKl20210618.xml?_=1623933794858

最新更新