我正试图从一个特定的HTML罐头中抓取注释,但遇到了问题。我可以把标签下的所有文本都刮下来,但只有评论。有人能帮我吗。
这是我的代码
from bs4 import BeautifulSoup
from urllib.request import urlopen
from urllib.error import HTTPError, URLError
page=urlopen('https://catalog.data.gov/dataset')
soup=BeautifulSoup(page,'lxml')
dataset_number=soup.select('div .new-results')
print(dataset_number)
我想从上面代码返回的数据中提取HTML注释。
试试这个:
from bs4 import BeautifulSoup,Comment
from urllib.request import urlopen
page=urlopen('https://catalog.data.gov/dataset')
soup=BeautifulSoup(page,'lxml')
dataset_number=soup.select('div .new-results')[0]
for com in dataset_number(text=lambda text: isinstance(text, Comment)):
print(com)
我有一个使用regex的例子。
from bs4 import BeautifulSoup
from urllib.request import urlopen
import re
page=urlopen('https://catalog.data.gov/dataset')
soup=BeautifulSoup(page,'lxml')
dataset_number=soup.select('div .new-results')
result = re.findall('<!--(.*)-->', str(dataset_number))
print(result)