Python如何更正字符串中未对齐的子字符串位置信息



我有一个字符串列表以及需要用于训练nlp模型的子字符串的开始偏移量和结束偏移量
子字符串的某些位置未对齐。例如:

text = 'Car is blue'  
start_offset = 0  
end_offset = 2  #misaligned. should be 3.  
substring = text[start_offset:end_offset] # should be 'Car' but misaligned to give substring as 'Ca'  

目的是检查高亮显示的子字符串是否是整个字符串中的一个完整单词。如果没有,请更正起点和终点偏移
我可以使用什么python代码来获取全单词子字符串?

只需执行end_offset + 1。字符串上的范围选择器包括第一个元素,不包括最后一个元素,因此字母";r〃;关于索引";2〃;在这种情况下不采取。如果你想要完整的单词,范围应该是0:3。

最新更新