我有一个pyspark应用程序,它在后台使用boto3库。
我正在尝试用包含应用程序依赖项的内置轮子包启动应用程序。
通过emr集群的引导操作安装的外部依赖项,如boto3 I。
sudo python3 -m ensurepip --upgrade
sudo python3 -m pip install boto3==1.24.83
我在集群配置中手动为python3指定了spark.pyspark.python选项。
我无法解决缺少包裹的问题
ModuleNotFoundError: No module named 'boto3'
UPD:我试着在没有sudo的情况下运行它。
您可以通过在集群配置中指定引导操作来实现这一点,更多详细信息可以在这里找到
示例-引导
boostrap .sh
#!/bin/bash
sudo python3 -m pip install
botocore
boto3