Spark中的数据框架是什么数据框



这是我以前问题的后续。
Row是一组有序的钥匙值对。DataFrameRows的集合。
DataFrame实际上是什么数据结构?是列表,集合还是其他"集合"?是SQL中的relation吗?

它是 RDD[Row]上的抽象,或spark2中的 Dataset[Row],通过系列Column类设置了定义的模式

它是列表,集合还是其他"集合"?

不用这些单词的爪哇术语。类似于RDD的方式,而是"懒惰的收藏"

是SQL?

中的关系

欢迎您在数据框架上运行SparkSQL,但这是一张桌子。关系是可选的

尽管dataFrame是RDD的抽象,但数据框的内部表示与RDD完全不同。

rdd表示为Java对象,并将JVM用于所有操作。但是,数据帧在钨中表示。

这是一篇很棒的文章,详细阐述了数据框在钨中的表示。

最新更新