小贝子编程

如何从Spark作业中获取AWS Glue Data Catalog中注册的表的S3密钥(路径)

本文关键字：S3 注册密钥路径 Catalog Data Spark 作业获取 Glue AWS amazon-web-services apache-spark amazon-emr aws-glue
更新时间 : 2023-09-21
英文 : How to get S3 key (path) of a table registered in AWS Glue Data Catalog from Spark job

使用Spark(或PySpark(查找通过AWS Glue data Catalog存储的数据的完整路径(S3密钥(的最佳方法是什么？

例如，如果我以以下方式保存数据：

my_spark_dataframe 
.write.mode("overwrite") '
.format("parquet") 
.saveAsTable("database_name.table_name")

一种方法是获取给定表的元数据信息，然后提取Location部分：

full_s3_path = spark_session 
.sql("describe formatted database_name.table_name") 
.filter(col("col_name") == "Location") 
.select("data_type").head()[0]

这将返回：

# full_s3_path=s3://some_s3_bucket/key_to_table_name

最新更新

Elasticsearch 布尔查询不适用于过滤器
r语言 - 如何使用VisNetwork拥有两种颜色的节点?
在Dash中返回一个全新的布局到同一页面
Postgres无法加载ssl证书
我怎么能做一个文本搜索与Express和Mongo?
无法识别的客户端异常","错误消息":" 在本地测试 lambda 函数时，请求中包含的安全令牌无效
我有一个 roblox leaderstats 脚本，在 3 个不同的文件夹中有 2 个 IntValues，但它们无法正确保存。我不知道怎么了。我没有收到任何错误
为什么我得到Nodemailer不能/POST错误?
将数组转换为对象-具有特殊条件
如何在 JavaScript 中检查"is not defined" eval(var)？
错误NETSDK1152在WinUI3应用程序:发现多个发布输出文件具有相同的相对路径:Microsoft.Web.We
当我在Ubuntu16中使用字符串命令查找一些东西时，我没有得到任何输出
Apache Spark: parse PT2H5M (duration ISO-8601) duration以分钟为单
如何在Parent还没有Id时添加Child
无法记录android应用程序的jmeter脚本
使用AsyncRabbitTemplate::sendAndReceive - RabbitMQ时的应答超时
是自定义文件扩展名吗?
选择远程docker容器(没有kubernetes)后， JVM列表为空
c# TwinCAT数据类型的等效枚举
传递地址时，函数与函数模板的语法限制
如何将flutter riverpod ref.read()函数传递给另一个小部件
Pug/Node.js中的循环优化
Postgresql函数在删除t_providers的行之前作为触发器
在Python中替换字符串中类似模式的正则表达式
Azure DevOps YAML:带有模板变量的If-else条件不起作用
我有麻烦管理我的循环while loo[，反之亦然
我怎么能使最后一行从图在PHP?
无法使用引导折叠折叠
当cell1的值大于cell2的值时显示模态对话框
Vue模板使用JavaScript内置函数

如何从Spark作业中获取AWS Glue Data Catalog中注册的表的S3密钥(路径)

相关内容

最新更新

热门标签：