分析html中的分页.使用jsoup



我正在尝试解析网站以获取有关商店商品的一些信息。但我有一些问题:如何解析分页。我在html上发现了一些关于一些网址的信息,比如:"1,2,3..,25"页的商品。但我所能想象的最好的是,如何解析这些url,只需获取url,获取最后一页并对该页进行迭代:例如,我通过使用方法Jsoup.connect(website.com(.get((.getElementsByClass("someclass"(获得的url;https://somewebsite.com/somegoods/somecategory/page=1/, https://somewebsite.com/somegoods/somecategory/page=2/, https://somewebsite.com/somegoods/somecategory/page=24/但有时url类似于:https://somewebsite.com/somegoods/somecategory/filter/page=1;some_information_later/ https://somewebsite.com/somegoods/somecategory/filter/page=2;some_information_later/ https://somewebsite.com/somegoods/somecategory/filter/page=13;some_information_later/

你能帮我一下吗?我尝试过使用regex,但我不知道如何编写它来获取"page="之后和/或之前的数字;我想我可以得到页面的最后一个数字,从1到最后一个进行迭代,然后把它放在URL中,保存到URLS的哈希集。

捕获组可用于从与正则表达式匹配的字符串中获取特定的子字符串。圆括号标记捕获组。因此,页码本身的正则表达式将是"page=(\d+)"。要从匹配中获取组的thr值,请使用Matcher对象中的group方法。如果您还没有使用Matcher对象,可以从Pattern中创建一个。另外,您应该注意,您的第一个组是索引1(索引0提供了整个匹配字符串(。

有关详细信息:分组方法:https://docs.oracle.com/javase/7/docs/api/java/util/regex/Matcher.html#group(int(匹配器:https://docs.oracle.com/javase/7/docs/api/java/util/regex/Pattern.html#matcher(java.lang.CharSequence(

最新更新