2017-08-15 89 views
1

在Google Cloud Dataflow上使用Apache Beam Python SDK 2.0.0时,需要永久(大约8分钟)才能安装Pandas 0.20.3。安装主要挂在消息Running setup.py bdist_wheel for pandas: still running...上。然而,在我的机器上,安装相同版本的熊猫甚至不需要30秒(即使在清除pip缓存后)。安装熊猫大约需要现在运行我的管道的三分之一的成本。任何想法,为什么这需要这么多时间?在Google Cloud上安装pandas 0.20.3数据流需要很长时间

回答

1

Dataflow SDK阶段依赖于源代码的形式,因为客户端架构不一定与用作Dataflow工作者的VM匹配。这将导致熊猫从源头安装并在虚拟机上编译很长时间。

可以通过使用--extra_package标志并指向whl文件来解决此问题。对于熊猫,您可以使用来自pandas的pypi页面的相应whl文件(py27,x86_64)。

+0

我试着用'pandas-0.20.3-cp27-cp27m-manylinux1_x86_64.whl',但不幸的是它失败了'10:43:47.000 安装软件包失败:未能安装额外的软件包:无法安装额外的软件package pandas-0.20.3-cp27-cp27m-manylinux1_x86_64.whl:退出状态1'。任何想法可能是错误的?毕竟架构是不同的? – user8169408

+0

没关系!我不得不使用cp27mu版本。它现在有效。谢谢!!! – user8169408