如何使用 spark/pyspark 从字符串中的每个元素创建新列

我正在尝试在 Spark 中获取具有"A1"、"C2"和"B9"等字符串值的列（使用 pyspark），并使用字符串中的每个元素创建新列。如何从字符串中提取值以创建新列？

我该如何转动这个：

| id | col_s |
|----|-------|
| 1  | 'A1'  |
| 2  | 'C2'  |

进入这个：

| id | col_s | col_1 | col_2 |
|----|-------|-------|-------|
| 1  | 'A1'  | 'A'   |  '1'  |
| 2  | 'C2'  | 'C'   |  '2'  |

我一直在浏览文档，但没有成功。

您可以使用

expr（阅读此处）和substr（阅读此处）来提取所需的子字符串。在substr()函数中，第一个参数是列，第二个参数是要从中开始提取的索引，第三个参数是要提取的字符串的长度。注意：其索引基于 1，而不是基于 0

。

from pyspark.sql.functions import substring, length, expr
df = df.withColumn('col_1',expr('substring(col_s, 1, 1)'))
df = df.withColumn('col_2',expr('substring(col_s, 2, 1)'))
df.show()
+---+-----+-----+-----+
| id|col_s|col_1|col_2|
+---+-----+-----+-----+
|  1|   A1|    A|    1|
|  2|   C1|    C|    1|
|  3|   G8|    G|    8|
|  4|   Z6|    Z|    6|
+---+-----+-----+-----+

我在这里发布 5 分钟后就能够回答我自己的问题......

split_col = pyspark.sql.functions.split(df['COL_NAME'], "")
df = df.withColumn('COL_NAME_CHAR', split_col.getItem(0))
df = df.withColumn('COL_NAME_NUM', split_col.getItem(1))

相关内容

最新更新

热门标签：