WGET没有返回正确的页面



我正在尝试使用wget脚本脚本。我有一个网站列表,我需要检查它们是否对移动设备友好,并且正在使用Google网站:https://www.google.com/webmasters/tools/tools/mobile-friendlyly/。我想编写一个脚本以自动化的网站并输入每个地址。

例如,检查亚马逊的一个示例是:

wget https://www.google.com/webmasters/tools/mobile-friendly/?url=amazon.com

我尝试更改用户代理字符串并接受cookie,但它一直在加载主页。

wget将按原样下载页面。这意味着将无法执行JS代码。

也许可以帮助:

  • wget javascript?

  • 命令行浏览器带JS支持

感谢伙计们的帮助。我能够弄清楚出路。一种方法是使用phantomjs。您可以创建一个像我命名的save.js的脚本:

var system = require('system');
var page = require('webpage').create();
page.open(system.args[1], function()
{
    console.log(page.content);
    phantom.exit();
});

然后我运行代码如下:

phantomjs save.js http://www.google.com> output.html

另一种方法是与python一起使用硒。这是Python的代码片段,它将打印HTML。

from selenium import webdriver
driver = webdriver.PhantomJS()
driver.set_window_size(1024,768)
driver.get('www.google.com')
print driver.page_source
driver.quit()

最新更新