我有一个html文本的字符串,如sentence-transformers/paraphrase-MiniLM-L6-v2
我想提取的所有字符串后,出现"sentence-transformers/"。
我尝试了models = re.findall("sentence-transformers/"+"(w+)", text)
,但它只输出第一个单词(释义),而我想要完整的"释义"- minilm - l6 -v2 &;
我也不知道len(parse - minilm - l6 -v2)是先验的。
如何提取完整的字符串?
很多谢谢,避署
正则表达式的问题是,-
不被认为是一个单词字符,而您只搜索单词字符。下面的正则表达式适用于您的示例:
text = 'sentence-transformers/paraphrase-MiniLM-L6-v2'
models = re.findall(r'sentence-transformers/([w-]+)', text)
assert models[0] == 'paraphrase-MiniLM-L6-v2'