在Windows 10机器上安装了MarkLogic。
我们正在使用标记内容泵(MLCP)导入数据
它与
的合作良好<?xml version="1.0" encoding="UTF-8"?>
它在导入非UTF8编码时显示错误,即
<?xml version="1.0" encoding="US-ASCII"?>
我查看了MLCP指南并找到了content_encoding参数,但它不起作用,并且对记录的投掷错误包含特殊字符,例如&Acute;&delta;,&ldquo;&amp;所以在
上错误mapReduce.ContentWriter:XDMP-DECENTITYREF:无效的实体参考" gamma"
我将其传递到如下
mlcp.bat -content_encoding "US-ASCII"
当我查看此文档时,它说"仅支持UTF-8。"
当我看这个时,它说"选项值必须是您的JVM接受的字符集名称;"
所以我很困惑,不确定如何解决此问题以及如何在JVM中设置字符
感谢Grtjn的答复。
-XML_REPAIR_LEVEL FULL WORGET,所有记录现在都进行了,并且没有失败的记录。
特殊字符(带有;)存储在ML中,具有真实字符,如下所示
- &amp; lambda-λ
- &amp; aring-Å
- &amp; mu -μ
我希望从商业角度来看这应该是可接受的内容。
现在,唯一的主要挑战是在数百万XML记录中使用乱码的字符测试。
感谢Grtjn的帮助。