Crawler4j Regex Pattern for url



im使用crawler4j,我只想对URL进行一些模式,但我无法为该URL解决正格:

http://www.site.com/liste/product_name_changable/productDetails.aspx?productId={id}&categoryId={category_id}

我尝试:

liste/*/productDetails:aspx?productId=*&category_id=*

private final static Pattern FILTERS = Pattern.compile("^/liste/*/productDetails.aspx?productId=*$");

但是它不起作用。

我该如何使其使得它的正则模式?

您的正则有几个错误。所有的asterixes都应该是。 ,表明您要匹配至少一个或多个字符。问号符号需要逃脱。cantory_id应该是类别。productDetails:ASPX应该是productDetails.aspx。使用所有这些修复程序,正则是这样的:

liste/.+/productDetails.aspx?productId=.+&categoryId=.+

另外,您在正则时期的开始和结尾不应该有 ^或$。这些与输入的开始和结尾匹配,因此,如果您想获得一部分URL,它们将无法工作。

相关内容

  • 没有找到相关文章

最新更新