如何取消启动数据框架



我试图在SparkR中转置/Undivot数据框架。我找不到SparkR软件包中可用的任何直接方法来完成数据框架。即使使用IncludePackage方法,我也不能在SparkR DataFrame上使用R软件包。如果有人可以让我知道是否有直接使用SparkR或其他替代方案(例如Hive)的方法。

,这将有所帮助。

我都不能在SparkR DataFrame上使用R软件包

本机R命令不在火花数据范围内运行。只有在火花数据范围内运行的火花命令。如果您想在Spark DataFrame上运行R命令,则可以收集()将其转换为R Data.Frame,但您将失去分布式处理的好处。

Spark DataFrame与关系数据库中的表相似。通过在Spark DataFrame上使用Spark命令,您将保留整个集群分布式处理的好处。

很难回答这样一个普遍的问题 - 通常在这个论坛上人们期望具有数据和代码的特定示例。通常,如果我想解开一个关系表,那么最基本的方法是创建一组查询,每个查询,每个查询包含行键加一个列,并在列中过滤。然后,我将多个结果组合到一个新的数据框中。

如果您对R语言语法的喜好,则可以使用SPARKR中的Unionall(X,Y)命令完成联合,该命令将在整个群集上进行处理(与R Data.Frame上的R命令不同)。<<<<<<<<<<<<<</p>

相关内容

最新更新