Spark数据帧是否像熊猫一样对每一行都有"row name"?



我试图使用Spark DataFrames按行名对两个DataFrames索引进行操作。在熊猫中,我们可以做

df.loc(['aIndex', 'anotherIndex'])

根据索引(或行名)在df中选择两行。如何在Spark DataFrame中实现这一点?谢谢。

不,Spark中没有行索引。Spark数据框架更像是关系数据库中的表,所以如果你想访问特定的行,你必须过滤:

df = sqlContext.createDataFrame(
    [("Bob", 5), ("Alice", 6), ("Chuck", 4)], ("name", "age"))
df.where("name in ('Bob', 'Alice')")
df.where((df.name == "Bob") | (df.name == "Alice"))

最新更新