在 Google Cloud Dataflow 上安装 pandas 0.20.3 需要很长时间



在Google Cloud Dataflow上使用Apache Beam Python SDK 2.0.0时,安装Pandas 0.20.3需要很长时间(大约8分钟(。安装主要挂在消息Running setup.py bdist_wheel for pandas: still running...上。但是,在我的机器上,安装相同版本的 pandas 甚至不需要 30 秒(即使在清除 pip 缓存后(。安装熊猫的成本大约是现在运行管道成本的三分之一。关于为什么这需要这么多时间的任何想法?

数据流SDK 以仅源形式暂存依赖项,因为客户端体系结构不一定与用作数据流辅助角色的 VM 匹配。这将导致从源安装熊猫并在 VM 上编译需要很长时间。

可以通过使用--extra_package标志并指向whl文件来解决此问题。对于熊猫,你可以使用熊猫pypi页面中相应的whl文件(py27,x86_64(。

最新更新