我有几个笔记本,由使用造纸厂的"驱动程序"笔记本运行。这些笔记本使用剪贴簿库将信息传达给驱动程序。然后,驱动程序将此信息作为参数传递给其他笔记本。我想使用 EMR 笔记本来优化这个"笔记本管道"的执行效率。AWS EMR 笔记本是否支持剪贴簿和造纸厂,或者我是否需要重构笔记本?
截至目前,没有。你不能直接这样做。 您可以做的(我们正在做的(如下:
- 使用
hadoop
用户在 EMR 主节点上创建 python 环境 - 在您的环境中安装 Sparkmagic 并按照 sparkmagic 的 README.md 文件中的说明配置所有内核
- 将笔记本复制到主节点/直接从 s3 位置使用它
-
安装造纸厂并与造纸厂一起运行:
Papermill S3://path/to/notebook/input.ipynbs3://path/to/notebook/output.ipynb -p param=1