使用页面.在机械化中使用CSS选择器

我正在尝试用Mechanize抓取一个网页，具有以下结构:

<div id="searchResultsBox">  
    <div class="listings-wrap">
      <div class="listings-header">
        <div class="listing-cat">Category</div>
        <div class="listing-name">Name</div>
      </div>
      <ul class="listings">
        <li class="listing">
          <a href="/ShowRatings.jsp?tid=1143052">
            <span class="listing-cat">
              <span class="icon"></span>
              TEXT
              </span>
            <span class="listing-name">
              <span class="main">TEXT</span>
              <span class="sub">TEXT</span>
            </span>
          </a>
        </li>
         ...

我想导航到<a> HTML元素后面的页面。现在，我有:

agent = Mechanize.new
page = agent.get("URL")
page = page.at('#searchResultsBox > div.listings-wrap > ul > li:nth-child(1) > a')

，但它一直返回NIL(由puts page.class验证)。

我还尝试使用sleep来确保页面在继续之前有时间加载。

我做错了什么吗?我以为使用CSS选择器就可以了。

可能网站内容是通过JavaScript动态加载的。

检查page变量的内容，看内容是否完整。

如果内容不完整，则意味着必须有一些其他请求，向服务器返回该数据。你可以搜索他们打开Chrome DevTools(或其他工具)。在"网络"选项卡中，您将看到网站发出的所有请求。搜索包含您需要的数据的那个，然后通过Mechanize抓取它。

相关内容

最新更新

热门标签：