Pyspark:读取paquet文件时出错

我正在尝试使用pyspark使用以下命令读取镶木地板文件：

file = spark.read.parquet("/FileStore/tables/file_name.parquet")

镶木地板文件中的列有空格。所以我试着用来重命名这些列

for c in file.columns:
file = file.withColumnRenamed(c, c.replace(" ", ""))

当我查看列名和架构时，我的列没有空格。然而，当我试图显示数据帧时，我得到了错误：

AnalysisException: Attribute name "Col Name" contains invalid character(s) among " ,;{}()nt=". Please use alias to rename it.;

知道如何解决这个问题吗？

拼花地板文件是如何创建的。如果可能的话，检查列的映射中是否有空间。

如果不可能，请尝试告诉数据帧读取器api您自己的模式

像这样的东西schema＝"；col1字符串、col2 int"；

df=spark.read.format("parquet"(
.option("path"，ur_path(
.schema(schema(
>.load((打印(df.schema.simplestring(((

请检查它是否有帮助

相关内容