MarkLogic Content Pump ， content_encoding encoding= "US-ASCII" ？

在Windows 10机器上安装了MarkLogic。

我们正在使用标记内容泵（MLCP）导入数据

它与

的合作良好

<?xml version="1.0" encoding="UTF-8"?>

它在导入非UTF8编码时显示错误，即

<?xml version="1.0" encoding="US-ASCII"?>

我查看了MLCP指南并找到了content_encoding参数，但它不起作用，并且对记录的投掷错误包含特殊字符，例如＆Acute;＆delta;，＆ldquo;＆amp;所以在

上

错误mapReduce.ContentWriter：XDMP-DECENTITYREF：无效的实体参考" gamma"

我将其传递到如下

mlcp.bat -content_encoding "US-ASCII"

当我查看此文档时，它说"仅支持UTF-8。"

当我看这个时，它说"选项值必须是您的JVM接受的字符集名称；"

所以我很困惑，不确定如何解决此问题以及如何在JVM中设置字符

感谢Grtjn的答复。

-XML_REPAIR_LEVEL FULL WORGET，所有记录现在都进行了，并且没有失败的记录。

特殊字符（带有;）存储在ML中，具有真实字符，如下所示

我希望从商业角度来看这应该是可接受的内容。

现在，唯一的主要挑战是在数百万XML记录中使用乱码的字符测试。

感谢Grtjn的帮助。

相关内容