我是Spark的新手。
我已经将CSV文件加载到Spark数据帧中,例如OriginalDF
现在我想1. 从中筛选出一些列,并创建原始DF的新数据帧2. 从提取的列中创建数据帧
如何在 Spark scala 中创建这两个数据帧?
使用选择,您可以选择所需的列。
val df2 = OriginalDF.select($"col1",$"col2",$"col3")
使用筛选器,您应该能够筛选行。
val df3 = OriginalDF.where($"col1" < 10)
筛选数据的另一种方法是使用 WHERE。过滤器和 where 都是同义词,因此您可以互换使用它们。
val df3 = OriginalDF.filter($"col1" < 10)
注意 选择和筛选将返回一个新的数据帧作为结果。