有没有办法在Azure ML Studio中修复俄语CSV读数?



我有一个大的csv文件,其中包含一些俄语文本。当我将其作为数据集上传到 Azure ML Studio 时,它显示为" "。我能做些什么来解决这个问题?

我尝试将文本的编码更改为UTF8,KOI8-R。

没有代码,但我可以共享部分数据集供您尝试。

一种解决方法可能是压缩您的 csv 并使用 python 模块读取它。在这种情况下,您的 python 脚本应如下所示:

# coding: utf-8
# The script MUST contain a function named azureml_main
# which is the entry point for this module.
# imports up here can be used to 
import pandas as pd
# The entry point function can contain up to two input arguments:
#   Param<dataframe1>: a pandas.DataFrame
#   Param<dataframe2>: a pandas.DataFrame
def azureml_main(dataframe1 = None, dataframe2 = None):
russian_ds = pd.read_csv('./Script Bundle/your_russian_dataset.csv', encoding = 'utf-8')
# your logic goes here
return russian_ds

它适用于法语数据集,所以希望您会发现它很有用

最新更新