从Spark job中读取Impala表和列名



我在不同的impala数据库中有表,存储为拼花文件,结构如下。我试图找出一个好方法来扫描所有表名和列名,在所有数据库下,从那里我希望检查表或列名是否包含某些值,如果是这样,我想读取值等。

我知道有像describe database.tablename这样的黑斑羚查询,但是对于所有其他处理,我想在spark工作中做到这一点。有人能帮我解释一下吗?多谢。

database1.tableOne
database1.tableTwo
database2.tableThree
....

您需要使用spark的jdbc数据框架连接impala,其中.query()选项包含description表。然后读取从jdbc操作符返回的数据框,给出列信息。

最新更新