如何用python以有效的方式解析HTML或XHTML或XML

我的python env是2.7

我知道这是一个古老的问题，但是当我搜索和阅读其他人的问题和答案时，我已经失去了理智。其中一些确实已经过时了。像下面的代码：

import lxml #wrong
import xml #correct

所以，由于我是python的新手，对伟大的python历史一无所知，我想让我更清楚。比如，现在python中所谓的标准xml-parser模块是什么？当我需要使用 xpath 语法解析一些 HTML 时，我该怎么办。如果我有一个格式错误的HTML源代码，如何使用BeautifulSoup或其他类似的东西来处理它。如果您能向我简要介绍一些事情，我将不胜感激。

好吧，总而言之，我只有一个问题。如何通过 python2.7 使用标准 python 模块来解析格式错误的 html 代码？

如果您需要坚持使用标准库，请阅读 python 库文档。

如果你不这样做，一定要看看lxml，它的功能要多得多。

相关内容

最新更新

热门标签：