我尝试运行一个自定义的Python脚本,该脚本在AWS Glue上导入外部纯python库(psycopg2),但失败了。我检查了CloudWatch日志,发现失败的原因是:
Spark 未能通过对 HDFS 中几个文件夹的权限检查,其中一个包含我上传到 S3 的外部 python 库 (s3://path/to/psycopg2),需要 -x 权限:
org.apache.hadoop.security.AccessControlException: Permission denied: user=root, access=READ_EXECUTE, inode="/user/root/.sparkStaging/application_1507598924170_0002/psycopg2":root:hadoop:drw-r--r--
at org.apache.hadoop.hdfs.server.namenode.FSPermissionChecker.check(FSPermissionChecker.java:320)
at org.apache.hadoop.hdfs.server.namenode.FSPermissionChecker.checkPermission(FSPermissionChecker.java:219)
at org.apache.hadoop.hdfs.server.namenode.FSPermissionChecker.checkPermission(FSPermissionChecker.java:190)
at org.apache.hadoop.hdfs.server.namenode.FSDirectory.checkPermission(FSDirectory.java:1728)
at org.apache.hadoop.hdfs.server.namenode.FSDirectory.checkPermission(FSDirectory.java:1712)
at org.apache.hadoop.hdfs.server.namenode.FSDirectory.checkPathAccess(FSDirectory.java:1686)
at org.apache.hadoop.hdfs.server.namenode.FSDirStatAndListingOp.getListingInt(FSDirStatAndListingOp.java:76)
at org.apache.hadoop.hdfs.server.namenode.FSNamesystem.getListing(FSNamesystem.java:4486)
at org.apache.hadoop.hdfs.server.namenode.NameNodeRpcServer.getListing(NameNodeRpcServer.java:999)
at org.apache.hadoop.hdfs.protocolPB.ClientNamenodeProtocolServerSideTranslatorPB.getListing(ClientNamenodeProtocolServerSideTranslatorPB.java:634)
at org.apache.hadoop.hdfs.protocol.proto.ClientNamenodeProtocolProtos$ClientNamenodeProtocol$2.callBlockingMethod(ClientNamenodeProtocolProtos.java)
at org.apache.hadoop.ipc.ProtobufRpcEngine$Server$ProtoBufRpcInvoker.call(ProtobufRpcEngine.java:616)
at org.apache.hadoop.ipc.RPC$Server.call(RPC.java:982)
at org.apache.hadoop.ipc.Server$Handler$1.run(Server.java:2049)
at org.apache.hadoop.ipc.Server$Handler$1.run(Server.java:2045)
at java.security.AccessController.doPrivileged(Native Method)
at javax.security.auth.Subject.doAs(Subject.java:422)
at org.apache.hadoop.security.UserGroupInformation.doAs(UserGroupInformation.java:1698)
at org.apache.hadoop.ipc.Server$Handler.run(Server.java:2045)
我确保库仅包含 AWS 文档中指示.py文件。
有谁知道出了什么问题?
非常感谢!
您有一个没有执行权限的目录。 在基于 Unix 的操作系统中,目录必须设置执行位(至少对用户而言)才能使用。
运行类似的东西
sudo chmod +x /user/root/.sparkStaging/application_1507598924170_0002/psycopg2
然后再试一次。
Glue 仅支持仅限 python 的库,即没有任何特定的本机库绑定。
软件包 psycopg2 不是纯 Python,因此它不适用于 Glue。 从 setup.py:
如果您希望避免从源代码构建 psycopg2,请安装 取而代之的是 PyPI 'psycopg2-binary' 包。
来自 AWS Glue 文档:
您可以使用 Python 扩展 带有 AWS Glue ETL 脚本的模块和库,只要它们 是用纯Python编写的。熊猫等 C 库不是 目前支持,也没有用其他扩展编写 语言。