如何使用 PySpark 升级 Qubole 的 Jupyter Notebook 中的库?



>有没有办法直接从笔记本中的单元格执行此操作? 类似于pip install ... --upgrade我不知道如何按照 https://docs.qubole.com/en/latest/faqs/general-questions/install-custom-python-libraries.html#pre-installed-python-libraries 上的指示进行操作 目前的Python版本是3.5.3,Pandas 0.20.1。我需要升级 Pandas 和 Matplotlib

在 Qubole 中,有两种方法可以升级/安装 python 环境的软件包。目前笔记本中没有可用的接口来安装新软件包。

新方法和推荐方式(通过包管理(:用户可以为帐户启用包管理功能,并通过UI将新包添加到集群。在性能和可用性方面,使用包管理比群集版本有很多优势。有关更多详细信息,请参阅 https://docs.qubole.com/en/latest/user-guide/package-management/index.html。

旧方法(通过引导(:用户可以配置一个引导程序,它基本上是在集群启动和/或升级时在每个节点上执行的 shell 脚本(更多节点被添加到集群中(。这可以通过群集 UI 进行配置,并且每次更改都需要启动群集。这是您共享的链接中的指示。

不能直接从笔记本中的单元格下载/升级程序包。这是因为笔记本已关联到群集。现在,要确保群集的所有节点都安装了包,必须使用包管理 (https://docs.qubole.com/en/latest/user-guide/package-management/package-management-environment.html( 或群集的节点引导 (https://docs.qubole.com/en/latest/user-guide/clusters/run-scripts-cluster.html#examples-node-scripts(。

如果您有任何其他问题,请告诉我。

最新更新