为了创建我的 Glue 脚本,我将开发终端节点与运行 Pyspark (Sparkmagic( 内核的 Sagemaker 笔记本一起使用。 最新版本的 Glue(版本 1.0(支持 Spark 2.4。但是,我的 Sagemaker 笔记本使用 Spark 版本 2.2.1。 我想测试的函数仅存在于 Spark 2.3 中。 有没有办法解决开发终结点和 Glue 作业之间的这种不匹配?我可以以某种方式设置笔记本的 Spark 版本吗?
我在文档中找不到任何内容。
当您为 Glue 开发终端节点创建 SageMaker 笔记本时,它会启动具有特定生命周期配置的 SageMaker 笔记本实例。此 LC 提供用于在 SageMaker 笔记本和开发终端节点之间创建连接的配置。从 PySpark 内核运行单元后,代码将通过 REST API 发送到在开发终端节点中运行的 Livy 服务器。
因此,您看到的 PySpark 版本以及运行 SageMaker 笔记本的 PySpark 版本取决于开发终端节点,并且从 SageMaker 的角度来看是不可配置的。
由于 Glue 是一项托管服务,因此对开发终端节点的根访问权限受到限制。因此,您无法将 Spark 版本更新到更新的版本。使用 Spark 版本 2.4 的功能是在 Glue 中新引入的,似乎尚未针对开发端点发布。