Apache spark: RDD或DF中的行比较有多深?



我想了解DF.intersect()的行为。

所以这个问题出现在脑海中,特别是当我们有复杂的行和复杂的字段时。(深树)

如果我们谈论的是数据框intersect转换,那么,根据Dataset文档和源代码,比较是直接对编码的内容进行的。这是它能到达的最深处。

def intersect(other: Dataset[T]): Dataset[T]
返回一个新数据集仅包含此数据集和另一个数据集中的行。这是相当于SQL中的INTERSECT

自1.6.0

注意:是直接对编码的数据进行相等性检查数据的表示,因此不受自定义equals的影响在t上定义的函数

最新更新