我正在编写一个爬虫,并且不断遇到 mechanize 无法为我提供类型之外的任何信息的表单控件。有什么方法可以获得与控件关联的人类可读文本?我知道这是一个有点模糊的领域,因为没有完美的方法来获取这些信息,但也许有些东西可以提供帮助?
查找同级节点上的文本和父节点的文本,因为这是它们经常出现的位置。 如果您实际上必须解析 html,LXML 可能会有所帮助。
我正在编写一个爬虫,并且不断遇到 mechanize 无法为我提供类型之外的任何信息的表单控件。有什么方法可以获得与控件关联的人类可读文本?我知道这是一个有点模糊的领域,因为没有完美的方法来获取这些信息,但也许有些东西可以提供帮助?
查找同级节点上的文本和父节点的文本,因为这是它们经常出现的位置。 如果您实际上必须解析 html,LXML 可能会有所帮助。
javascript python java c# php android html jquery c++ css ios sql mysql arrays asp.net json python-3.x ruby-on-rails .net sql-server django objective-c excel regex ruby linux ajax iphone xml vba spring asp.net-mvc database wordpress string postgresql wpf windows xcode bash git oracle list vb.net multithreading eclipse algorithm macos powershell visual-studio image forms numpy scala function api selenium