geoandas导入不能与AWS Glue一起使用



我们已经尝试通过

安装
  1. WHL
  2. 鸡蛋
  3. PIP安装

总是得到错误"ModuleNotFoundError: No module named 'pyproj'"下面是来自AWS Glue控制台的作业配置输入图片描述

我猜这是一个Python Shell胶水工作。如果是,那么我可以使用以下步骤使其工作

  1. 构建车轮文件
  • 创建了一个setup.py文件,其中只有geopandas和pandas作为要求
from setuptools import setup
setup(
name="test_geopandas",
version="0.1",
packages=['test_geopandas'],
install_requires=['pandas', 'geopandas']
)
  • 安装包并构建wheel文件

python3 setup.py develop

python3 setup.py bdist_wheel
  1. 将wheel文件推送到S3 bucket

aws s3 cp {absolute-path-to-wheel-file}"s3://{桶}/{path-to-lib-storage}/">

  1. 将车轮文件的绝对s3位置添加到Glue Jobs
  2. 中的Python库路径中

去Glue job>编辑Job>安全配置、脚本库和作业参数(可选)>Python库路径

我的脚本只有一行,导入了geopandas,在尝试了这个之后,它工作得很好。

前两个步骤是尝试从我如何解决" importterror: No module named"用AWS胶水?

你可以在这里找到更多关于添加Python库的信息-运行Spark ETL作业,减少启动时间

最新更新