控制python导入以减少大小和开销



我创建了许多个人库来帮助我进行日常编码。最佳实践是将导入放在python程序的开头。但假设我导入了我的库,甚至只是从库中导入了一个函数或类。所有模块都被导入(即使这些模块在其他未使用的类或函数中使用(。我想这会增加程序的开销吗?

一个例子。我有一个名为pytools的库,看起来像这个

import difflib
def foo():
    # uses difflib.SequenceMatcher
def bar():
    # benign function ie
    print "Hello!"
    return True
class foobar:
    def __init__():
        print "New foobar"
    def ret_true():
        return True

函数foo使用difflib。现在假设我正在编写一个需要使用bar和foobar的新程序。我可以写

import pytools
...
item = pytools.foobar()
vals = pytools.bar()

或者我可以做

from pytools import foobar, bar
...
item = foobar()
vals = bar()

选择是减少开销还是排除导入foo及其对difflib的依赖?如果difflib的导入在foo函数内部呢?

我遇到的问题是,当将简单的程序转换为只使用我库中的一个或两个类或函数的可执行文件时,可执行文件的大小大约为50 mb

我已经阅读了py2exe的优化大小页面,可以使用它的一些建议进行优化。

http://www.py2exe.org/index.cgi/OptimizingSize

我想我真的在这里寻求最佳实践。是否有某种方法可以阻止导入依赖项在未使用的函数或类中的库?我观察过使用调试器执行导入语句,在继续之前,python似乎只"拾取"了带有"def somefunction"的行。是否在使用函数/类之前,导入的其余部分还没有完成?这意味着在函数或类的开头放入大量导入可以减少库其余部分的开销。

有效减少依赖关系的唯一方法是将工具箱拆分为更小的模块,并且只导入所需的模块。

将导入放在未使用函数的开头将阻止在运行时加载这些模块,但不鼓励这样做,因为它隐藏了依赖关系。此外,您的Python到可执行文件的转换器可能无论如何都需要包括这些模块,因为Python的动态特性使得无法静态地确定实际调用了哪些函数。

最新更新