如何提取给定html文件甚至文件大小的所有链接?

是否可以列出 html 页面中存在的所有链接，给定 html 链接作为输入，您几乎可以在这里看到它？ http://www.feedbucket.com/?src=http://allearsenglish.libsyn.com/rss&start=0

看起来该网站会阅读所有存在的链接并给我摘要，并在不打开的情况下读取 mp3 链接的文件大小。

你知道有什么好的教程可以帮助我学习这个主题或类似主题吗？

我有一个想法。您可以使用拆分函数获取这些 URL 中的所有链接，例如：

var link =  "http://www.feedbucket.com/?src=http://allearsenglish.libsyn.com/rss&start=0";
var links = link.split("http://");

如果您在服务器端使用 java(因为 java 标签(

你可以使用这个Java html解析器库：jsoup

您将从输入 URL 请求页面，如下所示：

String src = request.getParameter("src");
Document doc = Jsoup.connect(src).get();

然后解析"doc"以查找页面中的所有链接，如下所示：

Elements links = doc.select("a[href]");

下面是一个类似的例子。

那里有大量的HTML解析库。Jsoup对于Java来说非常棒。您可以执行以下操作来获取元素列表。然后，您将遍历列表以打印它们，获取文件大小，以及您想要获得的任何其他内容

Jsoup.connect("http://www.feedbucket.com/?src=http://allearsenglish.libsyn.com/rss&start=0").get().getElementsByAttribute("href");

HTML解析器库将要做的是获取页面源代码，并获取所有 HTML 标签，然后从那里过滤类似链接的"a"标签。

相关内容