分析html中的分页.使用jsoup

我正在尝试解析网站以获取有关商店商品的一些信息。但我有一些问题：如何解析分页。我在html上发现了一些关于一些网址的信息，比如："1,2,3..，25"页的商品。但我所能想象的最好的是，如何解析这些url，只需获取url，获取最后一页并对该页进行迭代：例如，我通过使用方法Jsoup.connect(website.com(.get((.getElementsByClass("someclass"(获得的url；https://somewebsite.com/somegoods/somecategory/page=1/, https://somewebsite.com/somegoods/somecategory/page=2/, https://somewebsite.com/somegoods/somecategory/page=24/但有时url类似于：https://somewebsite.com/somegoods/somecategory/filter/page=1;some_information_later/ https://somewebsite.com/somegoods/somecategory/filter/page=2;some_information_later/ https://somewebsite.com/somegoods/somecategory/filter/page=13;some_information_later/

你能帮我一下吗？我尝试过使用regex，但我不知道如何编写它来获取"page="之后和/或之前的数字；我想我可以得到页面的最后一个数字，从1到最后一个进行迭代，然后把它放在URL中，保存到URLS的哈希集。

捕获组可用于从与正则表达式匹配的字符串中获取特定的子字符串。圆括号标记捕获组。因此，页码本身的正则表达式将是"page=(\d+)"。要从匹配中获取组的thr值，请使用Matcher对象中的group方法。如果您还没有使用Matcher对象，可以从Pattern中创建一个。另外，您应该注意，您的第一个组是索引1(索引0提供了整个匹配字符串(。

有关详细信息：分组方法：https://docs.oracle.com/javase/7/docs/api/java/util/regex/Matcher.html#group(int(匹配器：https://docs.oracle.com/javase/7/docs/api/java/util/regex/Pattern.html#matcher(java.lang.CharSequence(

相关内容

最新更新

热门标签：