我的输入拼字文件有一个定义为optional binary title (UTF8);
的列,其中可能包含特殊字符,如德语的umlat(即Schrödinger)。
当使用Spark将parquet的内容加载到DataFrame时,行内容正在加载值Schrödinger为SchrA¶全垒打. 我相信这里可以解释为什么会发生这种情况,尽管我的印象是Spark将默认以UTF-8格式读取parquet文件。
我已经尝试使用这里描述的option参数来强制使用UTF-8编码,但仍然没有成功。有什么建议吗?
您可以尝试编码CP1252吗?对于大多数UTF8中不支持的特殊字符,