用BeautifulSoup抓取不同的元素:避免在嵌套的元素中重复



我想使用BeautifulSoup4从lokal保存的网站(python文档)中获取不同的内容(类),所以我使用此代码来实现这一点(index.html是这个保存的网站:https://docs.python.org/3/library/stdtypes.html)

from bs4 import BeautifulSoup
soup = BeautifulSoup(open("index.html"))
f = open('test.html','w')
f.truncate
classes= soup.find_all('dl', attrs={'class': ['class', 'method','function','describe', 'attribute', 'data', 'clasmethod', 'staticmethod']})
print(classes,file=f) 
f.close()

文件处理程序仅用于结果输出,对问题本身没有影响。

我的问题是结果是嵌套的。例如,方法"__eq__(导出器)将被找到1。班级内部和2。作为一个独立的方法。

所以我想删除其他结果中的所有结果,使每个结果都在同一层次上。我该怎么做?或者有可能在第一步就"忽略"这些内容吗?我希望你能理解我的意思。

不能告诉find忽略嵌套的dl元素;您所能做的就是忽略出现在.descendants:中的匹配项

matches = []
for dl in soup.find_all('dl', attrs={'class': ['class', 'method','function','describe', 'attribute', 'data', 'clasmethod', 'staticmethod']})
    if any(dl in m.descendants for m in matches):
        # child of already found element
        continue
    matches.append(dl)

如果您想要嵌套的元素而没有父元素,请使用:

matches = []
for dl in soup.find_all('dl', attrs={'class': ['class', 'method','function','describe', 'attribute', 'data', 'clasmethod', 'staticmethod']})
    matches = [m for m in matches if dl not in m.descendants]
    matches.append(dl)

如果您想拆开树并从树中删除元素,请使用:

matches = soup.find_all('dl', attrs={'class': ['class', 'method','function','describe', 'attribute', 'data', 'clasmethod', 'staticmethod']})
for element in matches:
    element.extract()  # remove from tree (and parent `dl` matches)

但您可能需要调整文本提取。

相关内容

  • 没有找到相关文章

最新更新