Python抓取工具:如何进入配置文件并提取数据



我正在为一个项目制作一个python刮刀。我需要从医生评论网站抓取一些数据。

我有代码可以到达那里名称,专业和评论数量,但是我需要输入他们的每个个人资料才能获得电话号码和地址,我不知道我应该怎么做,我需要单独的功能来做到这一点,还是我可以用这个来做?

每一种帮助都会对我有很大帮助。

import requests
from bs4 import BeautifulSoup

base_url = "https://www.ratemds.com/best-doctors/?page=1"
for page in range(1, 5, 1):
r = requests.get(base_url)
c = r.content
soup = BeautifulSoup(c, 'html.parser')
all = soup.find_all("div", {"class": "search-item doctor-profile"})
for item in all:
try:
print(item.find("a", {"class": "search-item-doctor-link"}).text)
except:
pass
try:
print(item.find("a", {"class": None}).text)
except:
pass

根据@cpander只需存储所有item.find("a", {"class": "search-item-doctor-link"})['href']并使用存储的URL再次运行requests.get((。 只是一个获取电话号码的简短示例:

item.find("div", attrs={"doctordetail":".1.0.0.0.2.2.0.1.1.0.0.1:1.0"}")

我要感谢他的想法建议。

我就是这样做的:

for item in all:
try:
n = item.find("a", {"class": "search-item-doctor-link"})
a = n.get('href')
print("https://www.ratemds.com/"+a)
except:
pass

我得到了那里个人资料的所有链接,其余的我知道。

感谢所有人,他们在那里提供了帮助:)

最新更新