http://www.vliz.be/vmdcdata/mangroves/aphia.php?p=browser&Amp; amp; adp; add = 235056& amp; amp; amp; exp.(这就是我要刮擦的信息)
我想刮擦这种详细的分类树,以便无论如何我都可以操纵它们。
,但是获取此树数据有一些问题。
-
我可以完全扩展分类树。当一些扩展时,有些人按照指示的方式崩溃。因此,将整个页面保存为HTML文件无法使我的问题如此。或者我可以在某个时间重复该过程以获取单独的文件并加入它们。.但这似乎是一种丑陋的方式。
-
我已经厌倦了点击,有很多"加号"标志,我必须等待。
有没有办法使用 Python ?
使用 Selenium
,这将通过单击"加号"来扩展树,并在完成后将所有元素带有其中的所有元素:
from selenium import webdriver
import time
browser=webdriver.Chrome()
browser.get('http://www.vliz.be/vmdcdata/mangroves/aphia.php?p=browser&id=235301&expand=true#ct')
while True:
try:
elem=browser.find_elements_by_xpath('.//*[@src="http://www.marinespecies.org/images/aphia/pnode.gif" or @src="http://www.marinespecies.org/images/aphia/plastnode.gif"]')[1]
elem.click()
time.sleep(2)
except:
break
content=browser.page_source