使用PySpark和Databricks环境通过另一个临时表更新临时表



我正在尝试使用一个流媒体基地,它以间接的方式不断更新(每2分钟)。

总结一下这个问题:这个流基础类似于:

%sql
create or replace temporary view TEMP1 as
select 1+1 as sum
所以,我可以在pyspark中这样调用它:
%python
df = sqlContext.sql('''
select *
from df''')
最后我想在另一个单元格中调用df:
%python
df.show() #data must be updated without the needed to run df = sqlContext again while TEMP1 will be continously updated

我该如何解决这个问题?而且,是的,我是pyspark的新手:(

我找到了这样做的方法:将df转换为函数!:

def df():
return sqlContext.sql("SELECT * FROM TEMP1")

所以我可以把它命名为

df().show()

它不是"优雅"的;不管它做什么

相关内容

  • 没有找到相关文章

最新更新