如何从已知模式找到未知字符串?python re.findall



我有一个html文本的字符串,如sentence-transformers/paraphrase-MiniLM-L6-v2

我想提取的所有字符串后,出现"sentence-transformers/"。

我尝试了models = re.findall("sentence-transformers/"+"(w+)", text),但它只输出第一个单词(释义),而我想要完整的"释义"- minilm - l6 -v2 &;

我也不知道len(parse - minilm - l6 -v2)是先验的。

如何提取完整的字符串?

很多谢谢,避署

正则表达式的问题是,-不被认为是一个单词字符,而您只搜索单词字符。下面的正则表达式适用于您的示例:

text = 'sentence-transformers/paraphrase-MiniLM-L6-v2'
models = re.findall(r'sentence-transformers/([w-]+)', text)
assert models[0] == 'paraphrase-MiniLM-L6-v2'

相关内容

  • 没有找到相关文章

最新更新