在下面的代码中,re.comfile()和remove_tags()是什么意思



在下面的数据预处理代码中,我知道re.compile((用于转换为regex对象。但是remove_tags((中会发生什么?什么样的图案在这里被去除?我搞不清存储在TAG.re变量中的re.comfile((中提到的正则表达式。

TAG_RE = re.compile(r'<[^>]+>')
def remove_tags(text):
return TAG_RE.sub('', text)
  • []->表示括号内的任何单个字符
    例如;h[oa]t发现热点和帽子,但没有击中

  • ^->表示不在括号中的任何字符
    例如;h[^oa]t找到命中,但不是热门帽子

  • '+'->表示一个或多个字符。它是一个量词,用于指定要匹配的出现次数。例如;a+表示至少一个

问题来了:-

  • [^>]->表示除">"之外的任何单个字符
  • [^>]+->表示除">"之外的任何单个字符一次或多次
  • <[^>]+&gt-&gt;匹配以<之后除了>然后以>
# remove html tags using RegEx
import re
pattern = re.compile(r'<[^>]+') # tags look like <....>
result = pattern.sub('',text)   # replace them with blank

最新更新