Java为许多网页获取web内容



以前我有一个程序,它可以访问很多网站,并从这些网站中获取我想要的部分源代码。然而,最近的网站已经更新,现在加载我想要动态的信息,我不再得到它。

我已经做了另一个版本的我的程序使用硒的工作,但它花了太长时间是实用的,有没有另一种方式获得更快的内容?我注意到的一点是,ie11版本仍然像以前一样加载网站内容,我能从那里获得具体的源代码吗?

在此之前,我得到它的方式是这样的:

public static void main(String[] args) throws IOException{

    String example = getSource("http://www.google.com");
    System.out.println(example);
}
public static String getSource(String urlToGoTo) throws IOException
{
    URL url = new URL(urlToGoTo);
    URLConnection connection = url.openConnection();
    BufferedReader in = new BufferedReader(new InputStreamReader(
            connection.getInputStream()));
    String inputLine;
    StringBuilder a = new StringBuilder();
    while ((inputLine = in.readLine()) != null)
        a.append(inputLine);
    in.close();
    return a.toString();
}

任何想法都是受欢迎的,我一直在试图找到一种方法来让这个工作的方式很长时间,因为它听起来不应该太复杂

似乎您正在试图获得页面源代码。在硒中有一种方法。你可以用它代替你的

getSource("http://www.google.com");

创建一个WebDriver实例并导航到你的url并获取页面源。

代码片段:

WebDriver driver = new FirefoxDriver();
driver.get("your URL");
String pageSource = driver.getPageSource();

最新更新