我目前有一个方法需要优化!我还在学习python,所以非常感谢您的帮助!
我正试图在一个非常大的语料库上运行下面的方法,我需要优化/减少这个方法的运行时间,因为它已经需要大约6秒的执行时间。
要求:
- 检查单词是否仅由字母、连字符和撇号组成
- 单词的第一个字符必须是字母表
- 单词的最后一个字符必须是字母表或撇号
- 严格不允许使用重新库(regex)
以下是代码:
def delUnknownChar(w):
wf = []
for c in w:
if (c == "'" or c == "-" or c.isalpha()):
wf.append(c)
w = "".join(wf)
wf.clear()
if (len(w) > 1):
while(not w[0].isalpha()):
w = w[1:]
while (w[-1] == "-"):
w = w[:-1]
return w
else:
return None
string1 = delUnknownChar("-'test'-")
print(string1)
输出将测试'上面的代码大约需要5秒钟才能运行。
如果我把代码的第2-7行改为这一行:
w = "".join(c for c in w if c == "'" or c == "-" or c.isalpha())
运行时间不知何故又增加了1秒。
这里有人有更好的想法或改进的优化方法来以更快的速度检查这一点吗?谢谢
使用之一
def Filter(In):
# First alpha character
for b in range(len(In)):
if In[b].isalpha():
break
if b == len(In):
return ""
# Last alpha' character
for e in range(len(In), 0, -1):
if In[e - 1].isalpha() or In[e - 1] == "'":
break
# Middle alpha-' characters
Out= [In[b]]
for i in range(b + 1, e):
if In[i].isalpha() or In[i] == "-" or In[i] == "'":
Out+= In[i]
return "".join(Out)
或
def Filter(In):
# First alpha character
for b in range(len(In)):
if In[b].isalpha():
break
if b == len(In):
return ""
# Last alpha' character
for e in range(len(In), 0, -1):
if In[e - 1].isalpha() or In[e - 1] == "'":
break
# Middle alpha-' characters
Out= In[b]
for i in range(b + 1, e):
if In[i].isalpha() or In[i] == "-" or In[i] == "'":
Out+= In[i]
return Out
根据您的字符串分布和Python版本/平台,使用最快的。
更新:这是一个基于更好地理解规范的新版本。
尝试str.translate:
from string import punctuation,digits
def delUnknownChar(s):
trans = """!"#$%&()*+,./:;<=>?@[]^_`{|}~0123456789"""
return s.translate(None,trans).lstrip("-'").rstrip("-")
Python 3:
trans = """!"#$%&()*+,./:;<=>?@[]^_`{|}~0123456789"""
d = {k: "" for k in trans}
def delUnknownChar1(s):
return s.translate(str.maketrans(d)).lstrip("-'").rstrip("-")
无翻译:
def delUnknownChar1(s):
good = set("abcdefghijklmnopqrstuvwxyzABCDEFGHIJKLMNOPQRSTUVWXYZ-'")
clean = ""
for ele in s:
if ele in good:
clean += ele
return clean.lstrip("-'").rstrip("-")
静态str.maketrans(x[,y[,z]])
此静态方法返回一个可用于str.translate()的转换表。如果只有一个参数,则它必须是一个字典,将Unicode序数(整数)或字符(长度为1的字符串)映射为Unicode序数、字符串(任意长度)或None。然后,字符键将被转换为序数。如果有两个参数,它们必须是长度相等的字符串,并且在生成的字典中,x中的每个字符都将映射到y中相同位置的字符。如果有第三个参数,它必须是一个字符串,其字符将在结果中映射为None
In [30]: timeit Filter(s)
100 loops, best of 3: 10.48 ms per loop
In [31]: timeit delUnknownChar(s) # yours
100 loops, best of 3: 8.41 ms per loop
In [32]: timeit delUnknownChar1(s) # mine
100 loops, best of 3: 2.46 ms per loop
In [25]: timeit delUnknownChar1(s)
100 loops, best of 3: 3.72 ms per loop
使用一些标准库:
import string
filter_set = set(string.ascii_letters + "-'")
def delUnknownChar(w):
return ''.join(c for c in w if c in filter_set).lstrip("'-").rstrip("-")
使用translate
:的替代方法
import string
keep = string.ascii_letters + "-'"
allchars = string.maketrans('', '')
delchars = ''.join([c for c in allchars if c not in keep])
def delUnknownChar(w):
return w.translate(None, delchars).lstrip("'-").rstrip("-")
(基于此解决方案)