在Python 3.9中读取多语言文件



在处理包含大约5种语言(英语,法语,西班牙语,德语,意大利语,瑞典语)的CSV文件时,我遇到了一点挑战。其目的是将来自OneCol(我的文档中的一个连接列)的值合并到不同的字典中。另一个条件是根据国家列进行合并(例如,法语将与FR字典进行检查)。我在阅读文件时遇到了麻烦,我所尝试的一切都结束了,但完全失败了,我感到有点筋疲力尽。字典还包含特殊字符/字典,在这种情况下,是数据帧,我将它们转换为列表。我得到的错误是:'ascii' codec can't decode byte 0xe4 in position 89: ordinal not in range.我的代码看起来像这样:

df['ResultG'] = np.where(df["Country"].isin(['1','2','12']), f['OneCol'].apply(lambda x: ' '.join(list(set(x.split()) & set(words.words())))), np.where(df["Country"]=='3', df['OneCol'].apply(lambda x: ' '.join(list(set(x.split()) & set(list_fr)))), "Other"))

我尝试了所有方法,从将文件设置为utf-8到在notepad++中实际更改文件。欢迎提出任何意见或建议。谢谢你

问题是:我的文件是ANSI格式的。我使用notepad++将其转换为UTF-8。在notepad++中选择Encoding并选择convert to UTF-8。然后将这一小段代码添加到数据框架中:

df=pd.read_csv(r'file path.txt', encoding='utf-8')

我的另一个问题是,因为我尝试了很多"解决方案",但总是出错,我无法使用Python,甚至连英文文本都不行。我必须重新安装所有的东西。

希望我的回答能对你有所帮助。

相关内容

  • 没有找到相关文章

最新更新