我正在为以下页面查找图像xpath:http://www.spoonsisters.com/product/1032000/38710.html
我可以通过浏览器查看image_url,但当我尝试通过机械化:找到它时
page = Agent.get("http://www.spoonsisters.com/product/1032000/38710.html")
page.parser.xpath('('//*[@id="main_image"]')')
=> [#<Nokogiri::XML::Element:0x80484c7c name="img" attributes=[#<Nokogiri::XML::Attr:0x80484bdc name="id" value="main_image">, #<Nokogiri::XML::Attr:0x80484bc8 name="src">, #<Nokogiri::XML::Attr:0x80484b8c name="alt" value="Paper Cocktail Napkins - What happens tonight goes on Facebook tomorrow">]>]
我得到"src">空白。如何找到image_url?
这是因为页面加载时,图像src是由javascript设置的。如果你查看源代码并搜索"main_image",你会看到以下内容:
<img id="main_image" src="" alt="Bar Towel - Wine Varietals" />
机械化没有运行javascript的能力,所以它总是一个空字符串。