python的机械化可以提取与控件关联的文本吗?



我正在编写一个爬虫,并且不断遇到 mechanize 无法为我提供类型之外的任何信息的表单控件。有什么方法可以获得与控件关联的人类可读文本?我知道这是一个有点模糊的领域,因为没有完美的方法来获取这些信息,但也许有些东西可以提供帮助?

查找同级节点上的文本和父节点的文本,因为这是它们经常出现的位置。 如果您实际上必须解析 html,LXML 可能会有所帮助。

最新更新