我正在尝试使用一个流媒体基地,它以间接的方式不断更新(每2分钟)。
总结一下这个问题:这个流基础类似于:
%sql
create or replace temporary view TEMP1 as
select 1+1 as sum
所以,我可以在pyspark中这样调用它:
%python
df = sqlContext.sql('''
select *
from df''')
最后我想在另一个单元格中调用df:
%python
df.show() #data must be updated without the needed to run df = sqlContext again while TEMP1 will be continously updated
我该如何解决这个问题?而且,是的,我是pyspark的新手:(
我找到了这样做的方法:将df转换为函数!:
def df():
return sqlContext.sql("SELECT * FROM TEMP1")
所以我可以把它命名为
df().show()
它不是"优雅"的;不管它做什么