小贝子编程

计数Pyspark DataFrame中的列数

本文关键字：Pyspark DataFrame 计数 apache-spark machine-learning pyspark apache-spark-sql
更新时间 : 2023-09-10
英文 : Count number of columns in pyspark Dataframe?

我有一个带有15列（4个分类和其余数字）的数据框。

我为每个分类变量创建了虚拟变量。现在，我想在我的新数据框架中找到变量数量。

我尝试计算printSchema()的长度，但为NoneType：

print type(df.printSchema())

您发现它错误的方式，这是此示例的示例示例和关于printschema的示例： -

df = sqlContext.createDataFrame([
    (1, "A", "X1"),
    (2, "B", "X2"),
    (3, "B", "X3"),
    (1, "B", "X3"),
    (2, "C", "X2"),
    (3, "C", "X2"),
    (1, "C", "X1"),
    (1, "B", "X1"),
], ["ID", "TYPE", "CODE"])

# Python 2:
print len(df.columns) #3
# Python 3
print(len(df.columns)) #3

columns提供了所有列的列表，我们可以检查Len。相反，printSchema打印具有列及其数据类型的DF的架构，例如： -

root
 |-- ID: long (nullable = true)
 |-- TYPE: string (nullable = true)
 |-- CODE: string (nullable = true)

计数Pyspark DataFrame中的列数

相关内容

最新更新

热门标签：