如何使用这些Node模块通过文件或URL接受HTML,然后输出JSON作为现有HTML元素的验证



本质上,我需要做的是获取一个本地grader.js文件,然后在命令行使用它输入HTML,然后将JSON数据输出到控制台,以验证几个HTML元素的存在。用法如下:

./grader.js --checks checks.json --file index.html
./grader.js --checks checks.json --url http://google.com

使用的Node模块有Commander(用于在命令行工作)、Cheerio(用于HTML)和Restler(用于从URL获取HTML)。

checks.json文件很简单,因为它只是要求检查几个简单HTML元素的存在,以确定它们是否存在于页面上:

["h1",
 ".navigation",
 ".logo",
 ".blank",
 ".about",
 ".heading",
 ".subheading",
 ".pitch",
 ".video",
 ".thermometer",
 ".order",
 ".social",
 ".section1",
 ".section2",
 ".faq",
 ".footer"]

js文件使事情变得更加复杂。以下代码实际上是有效的,因为它采用了命令行参数,并且确实指示了HTML元素是否存在的真值或假值。但在底部添加URL检查后,它就不能正常工作了。我的checkURL函数以及我使用底部Commander代码实现它的方式有问题。尽管true值和false值是正确的,这取决于我使用的HTML文件/URL,但我最终会向控制台吐出这两个检查,即使我只想检查文件或URL,而不是两者都检查。我对这个还很陌生,所以我很惊讶它能起作用。这可能与默认值有关,但当我尝试进行这些更改时,checkURL函数似乎会崩溃。提前感谢你的帮助,我真的很感激。

#!/usr/bin/env node
var fs = require('fs');
var program = require('commander');
var cheerio = require('cheerio');
var rest = require('restler');
var HTMLFILE_DEFAULT = "index.html";
var CHECKSFILE_DEFAULT = "checks.json";
var URL_DEFAULT = "http://cryptic-spire-7925.herokuapp.com/index.html";
var assertFileExists = function(infile) {
    var instr = infile.toString();
    if(!fs.existsSync(instr)) {
        console.log("%s does not exist. Exiting.", instr);
        process.exit(1); // http://nodejs.org/api/process.html#process_process_exit_code
    }
    return instr;
};
var cheerioHtmlFile = function(htmlfile) {
    return cheerio.load(fs.readFileSync(htmlfile));
};
var loadChecks = function(checksfile) {
    return JSON.parse(fs.readFileSync(checksfile));
};
var checkHtmlFile = function(htmlfile, checksfile) {
    $ = cheerioHtmlFile(htmlfile);
    var checks = loadChecks(checksfile).sort();
    var out = {};
    for(var ii in checks) {
        var present = $(checks[ii]).length > 0;
        out[checks[ii]] = present;
    }
    return out;
};
var checkUrl = function(url, checksfile) {
    rest.get(url).on('complete', function(data) {
                $ = cheerio.load(data);
            var checks = loadChecks(checksfile).sort();
            var out = {};
            for(var ii in checks) {
                var present = $(checks[ii]).length > 0;
                out[checks[ii]] = present;
            }
            console.log(out);
        });
}
var clone = function(fn) {
    // Workaround for commander.js issue.
    // http://stackoverflow.com/a/6772648
    return fn.bind({});
};
if(require.main == module) {
    program
        .option('-f, --file <html_file>', 'Path to index.html', clone(assertFileExists), HTMLFILE_DEFAULT)
        .option('-u, --url <url>', 'URL to index.html', URL_DEFAULT)
        .option('-c, --checks <check_file>', 'Path to checks.json', clone(assertFileExists), CHECKSFILE_DEFAULT)
        .parse(process.argv);
    var checkJson = checkHtmlFile(program.file, program.checks);
    var outJson = JSON.stringify(checkJson, null, 4);
    console.log(outJson);
    var checkJson2 = checkUrl(program.url, program.checks);
    var outJson2 = JSON.stringify(checkJson2, null, 4);
    console.log(outJson2);
} 
else {
    exports.checkHtmlFile = checkHtmlFile;
}

根据参数调用checkHtmlFile()checkUrl() 之一

类似于:

if (program.url)
   checkUrl(program.url, program.checks);
else checkHtmlFile(program.file, program.checks);

阅读本文获取更多参考:command.js选项解析

此外,checkJson2undefined,因为checkUrl()没有返回任何内容。

那些命令行。选项行在我看来不对。

删除克隆功能并按如下方式修改选项行:

    .option('-f, --file <html_file>', 'Path to index.html', HTMLFILE_DEFAULT)
    .option('-u, --url <url>', 'URL to index.html', URL_DEFAULT)
    .option('-c, --checks <check_file>', 'Path to checks.json', CHECKSFILE_DEFAULT)

这应该可以解决你的指挥官问题。

这是在@David和@ankitsabharwal的有用提示之后更新的checkUrl函数。

var checkUrl = function(url, checksfile) {
    rest.get(url).on('complete', function(data) {
        $ = cheerio.load(data);
        var checks = loadChecks(checksfile).sort();
        var out = {};
        for(var ii in checks) {
            var present = $(checks[ii]).length > 0;
            out[checks[ii]] = present;
        }
        var outJson = JSON.stringify(out, null, 4);
        console.log(outJson);
    });
}

下面是更新后的指挥官代码:

if(require.main == module) {
    program
        .option('-f, --file <html_file>', 'Path to index.html')
        .option('-u, --url <url>', 'URL to index.html')
        .option('-c, --checks <check_file>', 'Path to checks.json')
        .parse(process.argv);
    if (program.url) {
        checkUrl(program.url, program.checks);
    } else {
        checkHtmlFile (program.file, program.checks);
        var checkJson = checkHtmlFile(program.file, program.checks);
        var outJson = JSON.stringify(checkJson, null, 4);
        console.log(outJson);
    }
} 

最新更新