迭代单词与re.search python一样多



我正在尝试检索该段落中包含网站的单词。我不知道这个单词的问题不知道该单词有多少个单词,所以我需要迭代它。

import urllib.request
import re
url = "http://www.cnn.com"
request = urllib.request.Request(url)
html_content = urllib.request.urlopen(request)
mystring=html_content.read().decode('utf-8')
m = re.search('CNNsw+sw+sw+sw+sw+sw+sw+s(w+)',mystring)
print (m.group(0))

在此示例中,我从CNN获得了韩国关键字的新闻

我不知道这是否真的解决了您的问题。如果您希望将文本分为句子,请使用以下方式:

re.split(r'[.!]', text)

如果您只想使用文本的第一句话:

re.match(r'.*[.!]', text

点意味着每个字符都会是匹配。星号是零或更多事件的量词。支架包含最后一个字符的集合,即点或感叹号。

如果要查找包含某个关键字的每个句子,请使用以下方式:

re.findall(r'[^.!]*KEYWORD[^.!]*[.!]', text)

匹配字符集开始时的绕行表示每个字符 给定的字符。

最新更新