小贝子编程

从parquet创建Spark数据帧时没有正确编码特殊字符

本文关键字：编码特殊字符 parquet 创建 Spark 数据帧 apache-spark utf-8 apache-spark-sql character-encoding parquet
更新时间 : 2023-09-22
英文 : Special characters not encoded properly when creating Spark dataframe from parquet

我的输入拼字文件有一个定义为optional binary title (UTF8);的列，其中可能包含特殊字符，如德语的umlat(即Schrödinger)。

当使用Spark将parquet的内容加载到DataFrame时，行内容正在加载值Schrödinger为SchrA¶全垒打．我相信这里可以解释为什么会发生这种情况，尽管我的印象是Spark将默认以UTF-8格式读取parquet文件。

我已经尝试使用这里描述的option参数来强制使用UTF-8编码，但仍然没有成功。有什么建议吗?

您可以尝试编码CP1252吗?对于大多数UTF8中不支持的特殊字符，

最新更新

AWS ECS Service Connect versus Service Discovery
根据MongoDB中的条件获取下一个和上一个文档
是否有办法使一个正在运行的进程处于D状态或Z状态?
使用最新版本的d3-path配置jest
为什么我的复制和粘贴代码出现"Object Required"错误？
模型元类与模型形式元类有何不同?
可以在不更改对象构造函数的情况下向对象构造函数添加新的动态参数吗
对于下面的CNN模型，我们需要优化多少个模型参数?
typescript Redis客户端在类的构造函数?
无法从带有Java进程的Docker控制台分离
我可以列出一个数字，如果类实例在一个数组?
显示一次登录屏幕
如何获取defaultColDef中正在处理的单元格的列索引.网格中的cellClass
具有多个worker的可迭代pytorch数据集
如何在刀片模板内编写PHP代码
BIM360提交API文档
React Native API FETCH每个对象的不同名称
如何在Linux mongosh命令行上指定数据库以及身份验证
GitHub Actions CodeQL初始化操作失败
不和谐.js "cannot read properties of undefined"尝试将事件处理程序放入单独的文件中时
Woocommerce如何将钩子中的函数转换为短代码
Oracle SELECT每个不同的列对每个不同的列
将复选框的字符串转换为布尔值
不能使用函数查找数组部分的和(javascript)
如何添加活动类点击角?
如何排序数组列表包含列表作为元素基于自定义所需的顺序
检查目录中是否存在文件的更好方法
用户喜欢的电影api与.net Core使用EF
带有外部身份提供者和角色的Azure AD B2C
Entity Framework 6使用被更新的记录的数据更新所有记录

从parquet创建Spark数据帧时没有正确编码特殊字符

相关内容

最新更新

热门标签：