我在使用齐柏林飞艇创建可视化时遇到问题。我有一个包含大约 6 亿条记录的数据集。它存储在HDFS集群中,我可以加载为Spark数据帧:
%spark.pyspark
input_hdfs_path = u'hdfs://cluster-master:9000/data/CDR_*.parquet'
df = spark.read.format('parquet').load(input_hdfs_path)
df.registerTempTable("df")
我对在 CDR(字段 CDR_LENGTH
)的长度上创建直方图感兴趣:
%sql
select ROUND(CDR_LENGTH, -2) as duration, count(*) as count
from df
group by 1
order by 1
我确实在表格选项卡(有两列,duration
和count
)中获得了适当的结果,但是当转到条形图选项卡(或任何其他图形选项卡)时,它只是说"没有可用的数据"。你能弄清楚我做错了什么吗?谢谢
您可以在图表按钮的右侧找到settings
,然后你定义Keys
、Groups
、Values
你喜欢。