在Spark中添加一个带有字符串索引的数据框?



Spark新功能。是否可以向现有数据集添加索引列,该数据集是字符串和运行号的组合

现在我正在创建一个动态索引,函数是单调递增的

List<Employee> columns = Arrays.asList(new Employee("john" ,"Lead"), new Employee("Doe" ,"Master"));
dataset = dataset.withColumn("index",monotonically_increasing_id());
dataset = dataset.select(col("index"),col("name"),col("desc"));
index|name|  desc|
+-----+----+------+
|    0|john|  Lead|
|    1| Doe|Master|

希望索引列与字符串和索引号。像下面的

index|name|  desc|
+-----+----+------+
|   E0|john|  Lead|
|   E1| Doe|Master|

您可以使用concat在开头添加E:

dataset = dataset.select(concat(lit("E"), col("index")).alias("index"),col("name"),col("desc"));

相关内容

  • 没有找到相关文章

最新更新