如何使用Hive仓库连接器在pyspark中执行HQL文件



我有一个hql文件。我想使用带有 Hive 仓库连接器的 pyspark 运行它。有一个 executeQuery 方法来运行查询。我想知道 hql 文件是否可以这样运行。我们可以运行这样的复杂查询吗? 请指教。

谢谢

我有以下解决方案,我假设 hql 文件中会有多个查询。

HQL 文件 : sample_query.hql

select * from schema.table;
select * from schema.table2;

代码:遍历每个查询。您可以在每次迭代中随心所欲地执行(就 HWC 操作而言(。

with open('sample_query.hql', 'r') as file:
hql_file = file.read().rstrip()

for query in [x.lstrip().rstrip() for x in hql_file.split(";") if len(x) != 0] :
hive.executeQuery("{0}".format(query))

最新更新