Regex表达式:包含模式的字符数



我有一个具有以下结构的数据帧:

β-葡萄糖苷酶琥珀酸半醛脱氢酶可能的环氧化物水解酶
Desc_ORF

与第二行中的单词匹配的一个选项可能是:

(?<!S)(?=S{13}(?!S))S*hydroS*
  • (?<!S)断言左侧的空白边界
  • (?=S{13}(?!S))断言13个后面跟着空白边界的非空白字符
  • S*hydroS*在可选的非空白字符之间匹配hydro

Regex演示

pattern=r"(?<!S)(?=S{13}(?!S))S*hydroS*"
df = df.set_index('Desc_ORF').filter(regex=pattern, axis=0)

最新更新