重命名R中的立陶宛字母表



我想重命名((或组合((同一观察中不同说话者的名字。例如,我有一个名为";扬声器";有几个发言者的名字带有立陶宛文字。当我试图将观察结果放在一个名字中时,当这个名字包含立陶宛字母字符时,它是不起作用的。我想字母表是个问题,因为它能很好地处理没有这些利川字母的名字。

例如:

lithu_comb[lithu_comb$speaker == "Č. Juršėnas L Ų", ] <- "Č. Juršėnas"
lithu_comb <- lithu_comb[!(lithu_comb$speaker=="Ąž  Tė. T S  Ąžė K Ų    Ū  Ū.S  Ąžė  Ū  Į Ką  Ū       Žū Ė J     . Są  Įų Į  Ė   S  Ąš Į  Ų Ųų"

在第一个例子中,我试图将观察结果结合起来,因为是同一个说话者,但名字写得很糟糕。在第二种情况下,我试图放弃观察,因为这不是一个真正的演讲者名字。

该代码在这两种情况下都不起作用,但在没有立陶宛字母的情况下效果良好。

非常感谢您的任何反馈或建议,如果我在帖子中犯了任何错误,请提前道歉。

Alberto

解决方案:将R更新到4.2.0或更高版本

Windows中较旧的R版本无法处理许多特殊字符,因为它们还不支持UTF-8编码。R版本4.2.0及更高版本应该完全支持UTF-8。

因此,这个代码在我的windows机器上运行良好:

lithu_comb <- data.frame(speaker = c("Č. Juršėnas L Ų", "Č. Juršėnas"))
lithu_comb[lithu_comb$speaker == "Č. Juršėnas L Ų", ] <- "Č. Juršėnas"

输出:

speaker
1 Č. Juršėnas
2 Č. Juršėnas
R version 4.2.1 (2022-06-23 ucrt)
Platform: x86_64-w64-mingw32/x64 (64-bit)
Running under: Windows 10 x64 (build 22000)

如果这解决了你的问题,请告诉我们。如果没有,请分享您的会话信息

sessionInfo()

最新更新