从parquet创建Spark数据帧时没有正确编码特殊字符



我的输入拼字文件有一个定义为optional binary title (UTF8);的列,其中可能包含特殊字符,如德语的umlat(即Schrödinger)。

当使用Spark将parquet的内容加载到DataFrame时,行内容正在加载值SchrödingerSchrA¶全垒打. 我相信这里可以解释为什么会发生这种情况,尽管我的印象是Spark将默认以UTF-8格式读取parquet文件。

我已经尝试使用这里描述的option参数来强制使用UTF-8编码,但仍然没有成功。有什么建议吗?

您可以尝试编码CP1252吗?对于大多数UTF8中不支持的特殊字符,

相关内容

  • 没有找到相关文章

最新更新