MarkLogic Content Pump , content_encoding encoding= "US-ASCII" ?



在Windows 10机器上安装了MarkLogic。

我们正在使用标记内容泵(MLCP)导入数据

它与

的合作良好
<?xml version="1.0" encoding="UTF-8"?>

它在导入非UTF8编码时显示错误,即

<?xml version="1.0" encoding="US-ASCII"?>

我查看了MLCP指南并找到了content_encoding参数,但它不起作用,并且对记录的投掷错误包含特殊字符,例如&Acute;&delta;,&ldquo;&amp;所以在

错误mapReduce.ContentWriter:XDMP-DECENTITYREF:无效的实体参考" gamma"

我将其传递到如下

mlcp.bat -content_encoding "US-ASCII"

当我查看此文档时,它说"仅支持UTF-8。"

当我看这个时,它说"选项值必须是您的JVM接受的字符集名称;"

所以我很困惑,不确定如何解决此问题以及如何在JVM中设置字符

感谢Grtjn的答复。

-XML_REPAIR_LEVEL FULL WORGET,所有记录现在都进行了,并且没有失败的记录。

特殊字符(带有;)存储在ML中,具有真实字符,如下所示

  • &amp; lambda-λ
  • &amp; aring-Å
  • &amp; mu -μ

我希望从商业角度来看这应该是可接受的内容。

现在,唯一的主要挑战是在数百万XML记录中使用乱码的字符测试。

感谢Grtjn的帮助。

相关内容

  • 没有找到相关文章

最新更新