Spark新功能。是否可以向现有数据集添加索引列,该数据集是字符串和运行号的组合
现在我正在创建一个动态索引,函数是单调递增的
List<Employee> columns = Arrays.asList(new Employee("john" ,"Lead"), new Employee("Doe" ,"Master"));
dataset = dataset.withColumn("index",monotonically_increasing_id());
dataset = dataset.select(col("index"),col("name"),col("desc"));
index|name| desc|
+-----+----+------+
| 0|john| Lead|
| 1| Doe|Master|
希望索引列与字符串和索引号。像下面的
index|name| desc|
+-----+----+------+
| E0|john| Lead|
| E1| Doe|Master|
您可以使用concat
在开头添加E
:
dataset = dataset.select(concat(lit("E"), col("index")).alias("index"),col("name"),col("desc"));