确定爬虫4j上的参数



我正在尝试使用crawler4j,就像在本例中显示的那样,无论我如何定义爬虫的数量或更改根文件夹,我都会继续从代码中收到此错误:

"所需参数: 根文件夹(它将包含中间爬网数据) 数量(并发线程数)"主代码如下:

public class Controller {
    public static void main(String[] args) throws Exception {
            if (args.length != 2) {
                    System.out.println("Needed parameters: ");
                    System.out.println("t rootFolder (it will contain intermediate crawl data)");
                    System.out.println("t numberOfCralwers (number of concurrent threads)");
                    return;
            }
            /*
             * crawlStorageFolder is a folder where intermediate crawl data is
             * stored.
             */
            String crawlStorageFolder = args[0];

            /*
             * numberOfCrawlers shows the number of concurrent threads that should
             * be initiated for crawling.
             */
            int numberOfCrawlers = Integer.parseInt(args[1]);

有一个类似的问题问我到底想知道什么,但我不太明白解决方案,比如我在哪里输入java BasicCrawler控制器"arg1"arg2"。我在 Eclipse 上运行这段代码,我对编程世界还相当陌生。如果有人帮助我理解这个问题,我将不胜感激

如果在运行文件时未给出任何参数,则会收到该错误。将以下内容作为注释放入您的代码或删除它。

if (args.length != 2) {
                System.out.println("Needed parameters: ");
                System.out.println("t rootFolder (it will contain intermediate crawl data)");
                System.out.println("t numberOfCralwers (number of concurrent threads)");
                return;
        }

之后,将根文件夹设置为要存储元数据的文件夹。

要在项目中使用 crawler4j,您必须创建两个类。其中一个是爬虫控制器(根据参数启动爬虫),另一个是爬虫。

只需运行控制器类中的 main 方法并查看已爬网页面

这是控制器.java文件:

import edu.uci.ics.crawler4j.crawler.CrawlConfig;
import edu.uci.ics.crawler4j.crawler.CrawlController;
import edu.uci.ics.crawler4j.fetcher.PageFetcher;
import edu.uci.ics.crawler4j.robotstxt.RobotstxtConfig;
import edu.uci.ics.crawler4j.robotstxt.RobotstxtServer;
public class Controller {
public static void main(String[] args) throws Exception {

    RobotstxtConfig robotstxtConfig2 = new RobotstxtConfig();
    System.out.println(robotstxtConfig2.getCacheSize());
    System.out.println(robotstxtConfig2.getUserAgentName());
    String crawlStorageFolder = "/crawler/testdata";
    int numberOfCrawlers = 4;
    CrawlConfig config = new CrawlConfig();
    config.setCrawlStorageFolder(crawlStorageFolder);
    PageFetcher pageFetcher = new PageFetcher(config);
    RobotstxtConfig robotstxtConfig = new RobotstxtConfig();
    System.out.println(robotstxtConfig.getCacheSize());
    System.out.println(robotstxtConfig.getUserAgentName());
    RobotstxtServer robotstxtServer = new RobotstxtServer(robotstxtConfig, pageFetcher);
    CrawlController controller = new CrawlController(config, 
                 pageFetcher, robotstxtServer);
    controller.addSeed("http://cyesilkaya.wordpress.com/");
    controller.start(Crawler.class, numberOfCrawlers);
  }
   }

这是爬虫.java文件:

   import java.io.IOException;
   import edu.uci.ics.crawler4j.crawler.Page;
   import edu.uci.ics.crawler4j.crawler.WebCrawler;
   import edu.uci.ics.crawler4j.url.WebURL;
   public class Crawler extends WebCrawler {
    @Override
    public boolean shouldVisit(WebURL url) {
         // you can write your own filter to decide crawl the incoming URL or not.
        return true;
    }
    @Override
    public void visit(Page page) {          
        String url = page.getWebURL().getURL();
        try {
        String url = page.getWebURL().getURL();
                System.out.println("URL: " + url);   
    }
    catch (IOException e) {
    }
      }
   }

在 Eclipse 中:->点击运行->点击运行配置...

在弹出窗口中:

首先,左栏:确保在sub-dir Java应用程序中选择了您的应用程序,否则创建一个新的(单击新建)。

然后在中央窗口中,继续"参数"

"程序参数"下写下你的参数 写完第一个参数后,按回车键输入第二个参数,依此类推......(=换行符,因为参数是 [ ])

然后点击应用。

然后单击运行。

相关内容

  • 没有找到相关文章

最新更新