Informatica - 确定并在需要时通过使用通过命令任务调用的程序转换文件编码是否可行?



我们公司处理来自各个市场的发票数据&用多种语言。通常,数据以.txt或.dat文件的形式交付。这些文件中发票数据的格式或布局在许多市场中可能是通用的。例:发票号在巴西文件中的位置将与俄罗斯文件或英国文件中的位置相同。源文件的编码可以有所不同。来自英国的文件可能被编码为ASCII,来自巴西的文件可能被编码为ANSI;来自俄罗斯UTF-8的文件。这并不是一成不变的。我们的目标数据库配置为UTF-8。

由于每个文件之间的数据布局基本相同,如果可能的话,我们希望通过一个Informatica工作流处理所有文件&如果需要,在运行时转换文件编码。

我不是Java开发人员,但它发生在我是否可以从命令任务中调用jar来检查文件编码并在需要时运行转换。

或者我应该寻找另一种解决方案?

想法是将所有非UTF文件转换为UTF-8,这是最高集,可以处理几乎所有字符集。因此,按照以下步骤操作-

  1. 使用file --mime-encoding inp_file检查编码
  2. 使用powershell (link - superuser.com/questions/1163753/…)或UNIX/LINUX shell (link - stackoverflow.com/questions/64860/…)