比较 Python 中两种子字符串搜索方法的效率



在python中搜索子字符串搜索的主题(link1,link2)后,我发现了两个明显的解决方案

str1 = 'Hi there'
str2 = 'Good bye'
# 1
if str1.find('Hi') != -1: 
    print 'Success!'
# 2
if 'Good' in str2:
    print 'Success'
  • 这两个生成的代码是否有区别,或者第二个只是语法糖?
  • 一个还是另一个更有效率?
  • 有第三种选择

您可以检查字节码在这些条件下的外观:

In [1]: import dis
In [2]: dis.dis(lambda: 'Hi' in x)
  1           0 LOAD_CONST               1 ('Hi') 
              3 LOAD_GLOBAL              0 (x) 
              6 COMPARE_OP               6 (in) 
              9 RETURN_VALUE         
In [3]: dis.dis(lambda: x.find('Hi') != -1)
  1           0 LOAD_GLOBAL              0 (x) 
              3 LOAD_ATTR                1 (find) 
              6 LOAD_CONST               1 ('Hi') 
              9 CALL_FUNCTION            1 (1 positional, 0 keyword pair) 
             12 LOAD_CONST               3 (-1) 
             15 COMPARE_OP               3 (!=) 
             18 RETURN_VALUE         

如您所见,find版本的功能更多,特别是它正在执行in运算符不需要的属性查找。

我还必须说,in更明确地表明您正在检查子字符串是否存在而不是其位置,因此它更具可读性。

就速度而言,对于任何合理大小的字符串,它们应该完全相等。仅对于最小的字符串,属性查找才会产生重大影响,但在这种情况下,无论如何都会非常快速地检查条件。

第三种选择是使用 index 并捕获异常:

try:
    string.index(substring)
except IndexError:
    # not found
else:
    # found

虽然这不能用简单的表达来表达

第二个不仅仅是第一个的句法糖。 str.find只是一个方法调用,而a in b调用a.__contains__(b)。我认为速度没有任何差异。

我会推荐第二个,因为它更像 Pythonic:

它更具可读性。它使用鸭子打字。该字符串可以替换为不同的可迭代对象,它仍然可以工作。

最新更新