如何从HTML标签上刮下注释

我正试图从一个特定的HTML罐头中抓取注释，但遇到了问题。我可以把标签下的所有文本都刮下来，但只有评论。有人能帮我吗。

这是我的代码

from bs4 import BeautifulSoup
from urllib.request import urlopen
from urllib.error import HTTPError, URLError
page=urlopen('https://catalog.data.gov/dataset')
soup=BeautifulSoup(page,'lxml')
dataset_number=soup.select('div .new-results')
print(dataset_number)

我想从上面代码返回的数据中提取HTML注释。

试试这个：

from bs4 import BeautifulSoup,Comment
from urllib.request import urlopen
page=urlopen('https://catalog.data.gov/dataset')
soup=BeautifulSoup(page,'lxml')
dataset_number=soup.select('div .new-results')[0]
for com in dataset_number(text=lambda text: isinstance(text, Comment)):
print(com)

我有一个使用regex的例子。

from bs4 import BeautifulSoup
from urllib.request import urlopen
import re
page=urlopen('https://catalog.data.gov/dataset')
soup=BeautifulSoup(page,'lxml')
dataset_number=soup.select('div .new-results')
result = re.findall('<!--(.*)-->', str(dataset_number))
print(result)

相关内容

最新更新

热门标签：