小贝子编程

通过在Apache Spark Java中搜索数据集的列标题来查找列索引

本文关键字：标题索引查找数据集搜索 Apache Spark Java java apache-spark apache-spark-sql apache-spark-dataset
更新时间 : 2023-09-11
英文 : Find column index by searching column header of a Dataset in Apache Spark Java

我有一个类似于以下示例的Spark数据集：

       0         1                  2          3
    +------+------------+--------------------+---+
    |ItemID|Manufacturer|       Category     |UPC|
    +------+------------+--------------------+---+
    |   804|         ael|Brush & Broom Han...|123|
    |   805|         ael|Wheel Brush Parts...|124|
    +------+------------+--------------------+---+

我需要通过搜索列标题来找到列的位置。

例如：

int position=getColumnPosition("Category");

这应该返回 2。

Dataset<Row>数据类型上是否支持任何 Spark 函数来查找列索引或任何可以在 Spark 数据集上运行的 Java 函数？

您需要访问架构并读取字段索引，如下所示：

int position = df.schema().fieldIndex("Category");

我为列表使用了索引属性：

df.columns.index(column_name)

你可以考虑这个选项(Scala实现(：

def getColumnPosition(dataframe: DataFrame, colName: String): Int = {
    dataframe.columns.indexOf(colName)
}

通过在Apache Spark Java中搜索数据集的列标题来查找列索引

相关内容

最新更新

热门标签：