MultiIndex Pandas DataFrame to Spark DataFrame & Missing Indexes

具有多索引pandas dataframe，如何将其转换为火花数据帧而不会丢失索引。可以使用玩具示例轻松测试这一点：

arrays = [['bar', 'bar', 'baz', 'baz', 'foo', 'foo', 'qux', 'qux'],
          ['one', 'two', 'one', 'two', 'one', 'two', 'one', 'two']]
tuples = list(zip(*arrays))
index = pd.MultiIndex.from_tuples(tuples, names=['first', 'second'])
df = pd.DataFrame(np.random.randn(8, 4), index=arrays)
df_spark = sqlContext.createDataFrame(df)

错过了所有索引。为了保留索引，我还需要照顾其他东西吗？

spark sql没有索引概念，因此，如果要保留它，则必须先重置或将其分配给列：

df_spark = sqlContext.createDataFrame(df.reset_index(drop=False))

这将创建一个DataFrame，并在索引中为每个字段提供附加列：

df_spark.printSchema()

root
 |-- level_0: string (nullable = true)
 |-- level_1: string (nullable = true)
 |-- 0: double (nullable = true)
 |-- 1: double (nullable = true)
 |-- 2: double (nullable = true)
 |-- 3: double (nullable = true)

您也可以使用inplace避免其他内存开销：

df.reset_index(drop=False, inplace=True)
df_spark = sqlContext.createDataFrame(df)

相关内容

最新更新

热门标签：