小贝子编程

在文本文件中下载目标链接html (Beautiful Soup - Python3)

本文关键字：Beautiful Soup Python3 html 链接文件文本下载目标 python beautifulsoup web-crawler
更新时间 : 2023-08-26
英文 : Downloading target link html in a text file (Beautiful Soup - Python3)

我对python和网络爬虫完全陌生。

我正在尝试下载文本页面中的单个目标链接。
到目前为止，我成功地提取了所需的所有目标url，但是不知道如何在文本文件中下载所有目标HTML文本。

谁能给我一个大概的概念?

url = ""
r  = requests.get(url)
data = r.text
soup = BeautifulSoup(data, "lxml")
link1 = soup2.find_all('a', href=re.compile("drupal_lists"))
for t in link1:
    print(t.attrs['href'])

在for循环中使用请求库访问链接url并将内容写入文件。比如:

link_data = requests.get(t.attrs['href']).text
with open('file_to_write.out', 'w') as f:
  f.write(link_data)

您可能需要更改每个链接的文件名

在文本文件中下载目标链接html (Beautiful Soup - Python3)

相关内容

最新更新

热门标签：