我正在使用在线工具来爬网的网站,并提供其中存在的页面/URL列表。
有一个排除页面的选项,并且给出了?.*page=.*$
我想忽略新闻部分中的所有内容( extal 新闻页面本身)
所以我会选择以下内容?
?.*news/.*$
如果我正确理解您,您正在寻找与news/foo
或news/foo/bar
相匹配的正则态度,但不符合news/
。
您可以使用此正则条件:.*news/.+
.*
字符串以0或更多字符(S)
news/
字符串包括新闻/
.+
字符串以1个或更多字符结尾
http://regexr.com/3ffj1