使用 Python 提取在文本中多次出现的字符串的周围字符



我有这样的文字:

"在vero eos et accusamus et iustovalor maximoodio dignissimos Ducimus qui blanditiis praesentium voluptatum deleniti atque corrupti Quos dolores et quas molestias excepturi sint occaecati cupiditate non Provident, similique sunt in culpa qui officia deserunt mollitia animi, id est laborum et dolorum fuga.Et harum quidem rerum facilis est et expedita distinctio.Nam libero tempore, cum soluta nobis est Eligendi optio cumque nihil impedit quo minus id quod maxime placeat Facere possimus, omnis voluptas assumenda est, omnis dolor 驱虫剂。Temporibusvalor maximoautem quibusdam et aut officiis debitis aut rerum necessitatibus saepe eveniet ut et Voluptates repudiandae sint et molestiae non recusandae.伊塔克耳 Rerum hic tenetur a sapiente delectus, ut aut reiciendis voluptatibus Maiores alias consequatur aut perferendis doloribus asperiores 排斥。

请注意,字符串

"英勇马克西莫">

出现两次。 我想从他们每个人那里得到上一个和下一个50字符。

结果应包含以下字符串:

"At vero eos et accusamus et iusto"
" odio dignissimos ducimus qui blanditiis praesenti"
"ssumenda est, omnis dolor repellendus. Temporibus "
"autem quibusdam et aut officiis debitis aut rerum "

可以是列表,字典,平面文本,等等。我怎样才能做到这一点?

我想这会做:

import re
keyword='valor maximo'
text = """At vero eos et accusamus et iusto valor maximo odio dignissimos ducimus qui blanditiis praesentium voluptatum deleniti atque corrupti quos dolores et quas molestias excepturi sint occaecati cupiditate non provident, similique sunt in culpa qui officia deserunt mollitia animi, id est laborum et dolorum fuga. Et harum quidem rerum facilis est et expedita distinctio. Nam libero tempore, cum soluta nobis est eligendi optio cumque nihil impedit quo minus id quod maxime placeat facere possimus, omnis voluptas assumenda est, omnis dolor repellendus. Temporibus valor maximo autem quibusdam et aut officiis debitis aut rerum necessitatibus saepe eveniet ut et voluptates repudiandae sint et molestiae non recusandae. Itaque earum rerum hic tenetur a sapiente delectus, ut aut reiciendis voluptatibus maiores alias consequatur aut perferendis doloribus asperiores repellat."""
matches = re.findall('(.{0,50}(%s).{0,50})' % keyword, text, re.DOTALL)
print(sum([match.split(keyword) for match, keyword in matches], []))

一般功能是

def get_matches(text, keyword, size):
matches = re.findall('(.{0,%d}(%s).{0,%d})' % (size, keyword, size), text, re.DOTALL)
return sum([match.split(keyword) for match, keyword in matches], [])

对于非正则表达式解决方案,请使用

def find_searchterm(word_list, searchterm, n_hood):
results = []
for i, _ in enumerate(word_list):
if word_list[i:i + len(searchterm)] == searchterm:
results.append(word_list[max(0, i - n_hood):min(i + n_hood + len(searchterm), len(word_list))])
return results

用法:

word_list = "At vero eos et accusamus et iusto valor maximo odio dignissimos ducimus qui blanditiis praesentium voluptatum deleniti atque corrupti quos dolores et quas molestias excepturi sint occaecati cupiditate non provident, similique sunt in culpa qui officia deserunt mollitia animi, id est laborum et dolorum fuga. Et harum quidem rerum facilis est et expedita distinctio. Nam libero tempore, cum soluta nobis est eligendi optio cumque nihil impedit quo minus id quod maxime placeat facere possimus, omnis voluptas assumenda est, omnis dolor repellendus. Temporibus valor maximo autem quibusdam et aut officiis debitis aut rerum necessitatibus saepe eveniet ut et voluptates repudiandae sint et molestiae non recusandae. Itaque earum rerum hic tenetur a sapiente delectus, ut aut reiciendis voluptatibus maiores alias consequatur aut perferendis doloribus asperiores repellat.".split(" ")

searchterm = "valor maximo".split(" ")
n_hood = 50
res = find_searchterm(word_list, searchterm, n_hood)

print(res)

最新更新