Spynner 不会从 URL 加载 html

我使用spynner从站点抓取数据。我的代码是这样的：

import spynner
br = spynner.Browser()
br.load("http://www.venere.com/it/hotel/roma/hotel-ferrari/#reviews")
text = br._get_html()

此代码无法加载整个 html 页面。这是我收到的 html：

<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"><html xmlns="http://www.w3.org/1999/xhtml"><head>
<script type="text/javascript">(function(){var d=document,m=d.cookie.match(/_abs=(([or])[a-z]*)/i)
v_abs=m?m[1].toUpperCase():'N'
if(m){d.cookie='_abs='+v_abs+'; path=/; domain=.venere.com';if(m[2]=='r')location.reload(true)}
v_abp='--OO--OOO-OO-O'
v_abu=[,,1,1,,,1,1,1,,1,1,,1]})()

我的问题是：如何加载完整的 html？

更多信息：

我尝试过：

import spynner
br = spynner.Browser()
respond = br.load("http://www.venere.com/it/hotel/roma/hotel-ferrari/#reviews")
if respond == None:
   br.wait_load ()

但是加载HTML永远不会完成或确定。问题出在哪里？我快疯了。

再：我在 Django 1.3 中工作。如果我在 Python （2.7）中使用相同的代码，有时会加载所有 html。

现在检查测试内容后.html你会发现 id ="feedback 的 p 元素-...某个数字..." ：

import spynner
def content_ready(browser):
    if 'id="feedback-' in browser.html:
        return True
br = spynner.Browser()
br.load("http://www.venere.com/it/hotel/roma/hotel-ferrari/#reviews", wait_callback=content_ready)
with open("test.html", "w") as hf:
    hf.write(br.html.encode("utf-8"))

相关内容

最新更新

热门标签：