编码问题HPCC



我收到了一个数据集,其中包含美国、英国、法国和德国产品词典的数据。有了德语数据,我在显示口音等方面遇到了问题。

我已经将数据喷涂为ASCII和UTF8。

我已将我的记录结构定义为

gbrec := RECORD
STRING5 CountryId;
INTEGER8 ProductId;
INTEGER8 ABV;
UTF8_de ProductDescription;
INTEGER8 ProductItemId;
INTEGER MultiBuys;
STRING UomDescription;

我将数据集定义为

ProductDictionary := Project(DISTRIBUTE(DATASET('~cga::ml_fullproductextract_20220808_UTF.txt', gbrec ,CSV(SEPARATOR('t'))))(std.uni.ToUpperCase(ProductDescription[1..4]) != 'ANY ' AND std.uni.ToUpperCase(CGA_GenealogyLvl3Desc) NOT IN ['NA_BRAND FAMILY']),

我使用了UTF和ASCII版本,没有任何乐趣。数据显示在下面。

VS代码图像

你有什么建议吗?我仔细查看了原始论坛上的帖子,我就是从那里得到这些想法的。

如有任何帮助,我们将不胜感激。

感谢

问题数据

David,

我会从回到喷雾器开始。ASCII永远不会工作,所以UTF8将是我的第一选择。但由于这不起作用,我接下来会回去看看Hex编辑器中的原始数据,看看我到底在处理什么。IOW,它是Unicode的某种形式,但究竟是哪一种呢?也许你可以问一下数据供应商?

HTH,

Richard

相关内容

  • 没有找到相关文章

最新更新