有没有一种方法可以从运行在谷歌云平台dataproc集群上的Jupyter笔记本中保存的.py文件中导入和运行函数

本机运行Jupyter笔记本时，从保存的.py脚本导入函数和实用程序很简单。

当我在谷歌云平台dataproc集群上运行的Jupyter笔记本上工作并尝试同样的事情时——(在将.py脚本上传到我的dataproc Jupyter笔记本后——它因此在云中***(，我无法将该函数导入(dataproc(笔记本。

有人知道我该怎么做吗？这是否只与找出正确但不明显的路径有关？(我正试图从与Jupyter笔记本相同的文件夹中导入一个.py文件，所以如果它以本机方式运行，则不需要路径，但可能与dataproc？不同

***我并没有犯将desktop/native.py脚本导入GC dataproc笔记本的错误。

任何帮助或线索都将不胜感激！

如果使用PySpark内核，可以向sparkContext添加依赖项。

spark.sparkContext.addPyFile(f'gs://{your_bucket}/{path_to_file}/dependencies.zip')

dependencies.zip将包含一个包含所有.py脚本和__init__.py:的文件夹

dependencies/
├── __init__.py
└── my_script.py

然后，您可以使用导入所有依赖项

import dependencies

或使用导入单个依赖项

from dependencies.my_script import my_class

PS：dependencies.zip的任何更改都不会反映在导入中，您必须重新启动PySpark内核才能使用更新的脚本。

很遗憾，这不受支持。但是，您可以下载.py文件，然后导入，作为一种解决方法，可以在类似问题的答案中找到详细信息：Dataproc导入存储在谷歌云存储(gcs(桶中的python模块。

相关内容