Spark 筛选出列并创建包含剩余列的数据帧,并使用筛选的列创建数据帧



我是Spark的新手。

我已经将CSV文件加载到Spark数据帧中,例如OriginalDF

现在我想1. 从中筛选出一些列,并创建原始DF的新数据帧2. 从提取的列中创建数据帧

如何在 Spark scala 中创建这两个数据帧?

使用选择,您可以选择所需的列。

val df2 = OriginalDF.select($"col1",$"col2",$"col3")

使用筛选器,您应该能够筛选行。

val df3 = OriginalDF.where($"col1" < 10)

筛选数据的另一种方法是使用 WHERE。过滤器和 where 都是同义词,因此您可以互换使用它们。

val df3 = OriginalDF.filter($"col1" < 10)

注意 选择和筛选将返回一个新的数据帧作为结果。

相关内容

  • 没有找到相关文章

最新更新