GAE Python代码在生产环境中比在本地慢得多



在我的Python GAE应用程序中,以下代码片段在生产环境中比在本地运行时要慢得多。处理过程如下:

  1. POST方式加载大约1mb的文本文件。文本文件的每一行都是一个"项目"。
  2. 我的代码从文本文件中创建一个项目列表,并检查重复和有效性(通过与编译后的RE进行比较)。

代码如下:

def process_items(self, text):
    item_list = text.split()
    item_set = set()
    n_valid = 0
    n_invalid = 0
    n_dups = 0
    out = ""
    for item in item_list:
        if item in item_set:
            n_dups += 1
            out += "DUPLICATE: %sn" % item
        elif valid_item(item): # This compares against a compiled RE
            item_set.add(item)
            n_valid += 1
            out += "%sn" % item
        else:
            n_invalid += 1
            out += "INVALID: %sn" % item
    return out

当我在本地开发服务器上运行此命令时,处理一个1MB的50,000行文件需要5秒。

当我在生产环境中运行此命令时,相同的文件需要一分钟以上的时间,并且请求超时。文件上传只需要大约一秒钟,所以我知道瓶颈是上面的代码。

在过去,生产代码的速度和本地代码差不多。我不认为这段代码已经改变了,所以我怀疑可能是在谷歌端有变化。

知道为什么这段代码现在在生产中会慢得多吗?我能做些什么使这段代码更快?我需要向用户返回一个带注释的文件,指出哪些行是重复的,哪些行是无效的。

编辑:

作为对mgilson评论的回应,我尝试了下面的代码,它在执行时间上产生了巨大的差异!以前的处理在一分钟后就会超时,现在只需要5秒钟。GAE仍然比预期的慢(即使考虑到相对较慢的服务器cpu),但有了改进的算法,现在对我来说已经不重要了。

def process_items(self, text):
    item_list = text.split()
    item_set = set()
    n_valid = 0
    n_invalid = 0
    n_dups = 0
    for i, item in enumerate(item_list):
        item = item.strip()
        if item in item_set:
            n_dups += 1
            item_list[i] = "DUPLICATE: %s" % item
        elif valid_item(item): # This compares against a compiled RE
            item_set.add(item)
            n_valid += 1
            item_list[i] = item
        else:
            n_invalid += 1
            item_list[i] = "INVALID: %s" % item
    return "n".join(item_list)

GAE生产比本地运行慢一点也不意外——根据您的实例类,您的生产CPU可以调到低至600MHz,这比大多数开发人员的计算机要慢得多。

可以加快速度的一件事是将结果累积在列表中(或从生成器生成它们),然后使用str.join获得完整的结果:

def process_items(self, text):
    item_list = text.split()
    item_set = set()
    n_valid = 0
    n_invalid = 0
    n_dups = 0
    out = []
    for item in item_list:
        if item in item_set:
            n_dups += 1
            out.append("DUPLICATE: %sn" % item)
        elif valid_item(item): # This compares against a compiled RE
            item_set.add(item)
            n_valid += 1
            out.append("%sn" % item)
        else:
            n_invalid += 1
            out.append("INVALID: %sn" % item)
    return "".join(out)

最新更新