如何在AWS EMR集群中安装pyspark的附加软件包



我有一个pyspark应用程序,它在后台使用boto3库。

我正在尝试用包含应用程序依赖项的内置轮子包启动应用程序。

通过emr集群的引导操作安装的外部依赖项,如boto3 I。

sudo python3 -m ensurepip --upgrade                                                                                                           
sudo python3 -m pip install boto3==1.24.83

我在集群配置中手动为python3指定了spark.pyspark.python选项。

我无法解决缺少包裹的问题

ModuleNotFoundError: No module named 'boto3'

UPD:我试着在没有sudo的情况下运行它。

您可以通过在集群配置中指定引导操作来实现这一点,更多详细信息可以在这里找到

示例-引导

boostrap .sh

#!/bin/bash
sudo python3 -m pip install 
botocore 
boto3

最新更新