如何使用Java从文件中逐个读取所有链接(网络爬虫)



文件,它包含一个文件中的所有链接,并且具有从该链接获取数据的代码,但此代码仅适用于我们在那里提到的一个链接,但是,我们希望执行存储在一个文件中的该文件中的所有链接。 一个接一个,同时它应该存储从该链接获取的所有数据并存储在其他文本文件中。

    URL my_url = new URL("http://www.flipkart.com/");
    BufferedReader br = new BufferedReader(new InputStreamReader(my_url.openStream()));
    String strTemp = "";
    while(null != (strTemp = br.readLine())){
    System.out.println(strTemp);                                        
    FileWriter fw = new FileWriter("/home/cloudera/Desktop/output.txt");      
    BufferedWriter bw = new BufferedWriter(fw);  
    String s1;
    while((s1 = br.readLine() ) != null )
{
    bw.write(s1);
    bw.newLine();  
}
    System.out.println("success");
    bw.close(); 
    fw.close();
    //br.close();  
}

}

删除第二个 while 并执行 bw.write(strTemp);

你正在重新发明轮子。除非是学校分配,否则为什么不直接使用像Nutch或StorCrawler这样的现有Java爬虫,而不是尝试解决其他人已经解决的问题呢?

最新更新