Python - 页面源代码中匹配的正则表达式 URL - Python - Regex matching urls in page source code 小贝子编程网

我使用此模式来匹配给定网页中的每个URL：

import re
source = """
<p>https://example.com</p>
... some code
<font color="E80000">https://example.com</font></a>
"""
urls = re.findall('http[s]?://(?:[a-zA-Z]|[0-9]|[$-_@.&+]|[!*(),]|(?:%[0-9a-fA-F][0-9a-fA-F]))+', source)

到目前为止，这对我很有用。我发现有时它与确切的网址不匹配。就像在示例中一样，它匹配为 url https://example.com</p> 并且https://example.com</font></a>包含结束标签，但我无法弄清楚正则表达式中的问题是什么。我从另一个堆栈问题中获取了这段代码。

试试这个，

import re
source = """
<p>https://example.com</p>
... some code
<font color="E80000">https://example.com</font>
https://example.com</p></a>
https://example.com</font></a>
"""
urls = re.findall('(http|ftp|https)://([w_-]+(?:(?:.[w_-]+)+))([w.,@?^=%&:/~+#-]*[w@?^=%&/~+#-])?', source)
print urls

Python - 页面源代码中匹配的正则表达式 URL

相关内容

最新更新

热门标签：