Pyspark:读取paquet文件时出错



我正在尝试使用pyspark使用以下命令读取镶木地板文件:

file = spark.read.parquet("/FileStore/tables/file_name.parquet")

镶木地板文件中的列有空格。所以我试着用来重命名这些列

for c in file.columns:
file = file.withColumnRenamed(c, c.replace(" ", ""))

当我查看列名和架构时,我的列没有空格。然而,当我试图显示数据帧时,我得到了错误:

AnalysisException: Attribute name "Col Name" contains invalid character(s) among " ,;{}()nt=". Please use alias to rename it.;

知道如何解决这个问题吗?

拼花地板文件是如何创建的。如果可能的话,检查列的映射中是否有空间。

如果不可能,请尝试告诉数据帧读取器api您自己的模式

像这样的东西schema=";col1字符串、col2 int";

df=spark.read.format("parquet"(
.option("path",ur_path(
.schema(schema(
>.load((打印(df.schema.simplestring(((

请检查它是否有帮助

最新更新