HTMLParser语言 - 仅提取 img 标签 - HTMLParser - only extract img tag 小贝子编程网

我正在使用HTMLParser从一个简单的html文本中提取图像URL，如下所示：

html = <p><span style="font-size: 17px;"><span style="color: #993300;"><img style="margin-right: 15px; vertical-align: top;" src="images/announcements.png" alt="announcements" /><cite>some message I would like to preserve with its formatting</cite></span></span></p>

现在我还需要一个没有 img 标签的上述 html 版本，但在正确的位置关闭标签时遇到困难。这是我尝试过的：

class MyHtmlParser(HTMLParser):
    '''
    Parse simple url to extract data and image url.
    This is expecting a simple url containing only one data block and one iimage url.
    '''
    def __init__(self):
        HTMLParser.__init__(self)
        self.noImgHtml = ''
    def handle_starttag(self, tag, attrs):
        if tag == 'img':
            for a in attrs:
                if a[0] == 'src':
                    self.imageUrl = a[1]
        else:
            print '<%s>' % tag
            self.noImgHtml += '<%s>' % tag
            for a in attrs:
                print '%s=%s' % a
                self.noImgHtml += '%s=%s' % a
    def handle_endtag(self, tag):
        self.noImgHtml += '</%s>' % tag
    def handle_data(self, data):
        self.noImgHtml += data

MyHtmlParser（）.feed（html）的输出是这样的：

<b>LATEST NEWS:</b><p><span>style=font-size: 17px;<span>style=color: #993300;</img><cite>The image uploader works again, so make sure to use some screenshots in your uploads/tutorials to make your submission look extra nice</cite></span></span></p>

如您所见（正如我的代码流所期望的那样），标签不会像在原始 html 中那样关闭（例如 span>）。

这可以使用 HTMLParser 轻松完成吗，或者我应该求助于 RE 来提取图像标签（这似乎不是很优雅）？

我不能使用外部模块来做到这一点，所以需要使用HTMLParser提供的东西。

提前感谢，弗兰克

事实上，你的代码正在工作，你可以使用

parser = MyHtmlParser()
parser.feed(html)
parser.noImgHtml

真的是你想要的。我试过了，输出是

<p><span>style=font-size: 17px;<span>style=color: #993300;</img><cite>some message I would like to preserve with its formatting</cite></span></span></p>

除了您需要将handle_endtag函数更改为

def handle_endtag(self, tag):
    if tag ！= 'img'
        self.noImgHtml += '</%s>' % tag

以排除 img 的结束标记。

事实上，MyHtmlParser().feed(html)只print结果，它什么也不返回。原因标签在打印输出中未正确关闭是因为您没有print endtag和标签的内容handle_endtag和handle_data。

如果您正在尝试处理嵌套的div，Alex 在这里的回答可能会有所帮助。如何使用python HTMLParser库从特定的div标签中提取数据？.

HTMLParser.get_starttag_text（）似乎是重建原始 html 的门票。这似乎有效：

class MyHtmlParser(HTMLParser):
    '''
    Parse simple url to extract data and image url.
    This is expecting a simple url containing only one data block and one iimage url.
    '''
    def __init__(self):
        HTMLParser.__init__(self)
        self.noImgHtml = ''
    def handle_starttag(self, tag, attrs):
        if tag == 'img':
            for a in attrs:
                if a[0] == 'src':
                    self.imageUrl = a[1]
        else:
            self.noImgHtml += self.get_starttag_text()

    def handle_endtag(self, tag):
        if tag != 'img':
            self.noImgHtml += '</%s>' % tag
    def handle_data(self, data):
        self.noImgHtml += data
        self.text = data

HTMLParser语言 - 仅提取 img 标签

相关内容

最新更新

热门标签：