小贝子编程

从Spark job中读取Impala表和列名

本文关键字：Impala 读取 Spark job python scala apache-spark apache-spark-sql impala
更新时间 : 2023-09-22
英文 : Read Impala tables and column names from Spark job

我在不同的impala数据库中有表，存储为拼花文件，结构如下。我试图找出一个好方法来扫描所有表名和列名，在所有数据库下，从那里我希望检查表或列名是否包含某些值，如果是这样，我想读取值等。

我知道有像describe database.tablename这样的黑斑羚查询，但是对于所有其他处理，我想在spark工作中做到这一点。有人能帮我解释一下吗?多谢。

database1.tableOne
database1.tableTwo
database2.tableThree
....

您需要使用spark的jdbc数据框架连接impala，其中.query()选项包含description表。然后读取从jdbc操作符返回的数据框，给出列信息。

最新更新

运行我的 CI 时没有这样的模块"AWSCore"，在本地很好
APPSCRIPT从Gmail中检索带有电子邮件地址的上次交互日期
Arduino cmake build system without IDE
使用.Split拆分字符串并返回第一个整数值
Docker挂载的卷文件属于nobody:nobody(失去所有者)
气流操作器从URL下载文件并保存到磁盘
我试图在提交表单之前添加一个选中的属性，并使用laravel刀片模板单击无线电粘性
Love2D 错误：main.lua：38：尝试调用方法 'getHeight'(一个 nil 值)
使用稀疏矩阵与jax
对于大一点的孩子(9岁以上的孩子)，我需要什么样的iOS家长门?
Understanding std::vector::push_back(std::move(v[i]))
你能找到解决这个问题的方法吗?
在使用相同group_id的kafka消费者中使用assign而不是subscribe是否有影响? &
让谷歌的见解清楚地表明，我的网站上有不止一个页面
我无法在反应中删除 html 标签
获取/读取邮件消息并输出纯文本
显示:表格单元格与行号不对齐
如何使用Toga应用访问Android通知
访问create_template_view api时出现INVALID_REQUEST_BODY错误
使用预处理器条件生成C/ c++变量名
此处映射计算路线API上的错误414
Oracle数据库中的并行提示
woocommerce在每个类别结帐后自定义重定向
是否有可能在AWS中设置一个webhook来监控特定的电子邮件地址，并将接收到的电子邮件信息传递给Lambda?<
仅使用numpy实现CNN时出错
过程展开不规则时间序列
插入多个带别名的外键
如何从API响应中提取Array
WebLogic 14c -性能调优测试
Google-Drive-API文件没有使用FORM_ID找到

从Spark job中读取Impala表和列名

相关内容

最新更新

热门标签：