这是我以前问题的后续。
Row
是一组有序的钥匙值对。DataFrame
是Rows
的集合。DataFrame
实际上是什么数据结构?是列表,集合还是其他"集合"?是SQL中的relation
吗?
它是 RDD[Row]
上的抽象,或spark2中的 Dataset[Row]
,通过系列Column
类设置了定义的模式
它是列表,集合还是其他"集合"?
不用这些单词的爪哇术语。类似于RDD的方式,而是"懒惰的收藏"
是SQL?
中的关系
欢迎您在数据框架上运行SparkSQL,但这是一张桌子。关系是可选的
尽管dataFrame是RDD的抽象,但数据框的内部表示与RDD完全不同。
rdd表示为Java对象,并将JVM用于所有操作。但是,数据帧在钨中表示。
这是一篇很棒的文章,详细阐述了数据框在钨中的表示。