使用自动编码将CSV(或TSV)加载到MarkLogic中



我使用MLCP(MarkLogic Content Pump)成功地将一个非常干净(纯英文,没有花哨的符号或图像)的CSV文件加载到MarkLogic中,使其以第一行为列名,并且我了解到,当我尝试加载一些不干净的东西(即与其他语言和编码混合)时,它会失败。

我阅读了《摄入指南》(http://docs.marklogic.com/guide/ingestion/encoding?print=yes)这种编码在MLCP中是不可控的,所以我决定尝试一下Java API和xdmp Xquery。

当使用Java API时,我得到:第1549行的UTF-8转义序列无效--文档不是UTF-8编码的

如果我尝试在Query Console或Information Studio上的流中使用自动编码的xdmp加载它,它加载时没有问题,但MarkLogic不将第一行作为列名,而是将整个文件作为一个文档,这不是我想要的。

有没有一种方法可以在没有编码问题的情况下加载CSV文件,并将第一行作为列名?

提前谢谢。

RecordLoader可以做到这一点:http://marklogic.github.io/recordloader/

CONFIGURATION_CLASSNAME=com.marklogic.recordloader.xcc.DelimitedDataConfiguration
FIELD_DELIMITER=,
RECORD_NAME=my-root-element-name

使用这些属性和CSV文件运行recordloader.sh。RecordLoader将期望第一行是一个标题列表,并将这些标题转换为元素名称。调整my-root-element-name以适合自己,并将INPUT_ENCODING设置为所需的任何编码。

请参阅https://github.com/marklogic/recordloader/blob/master/src/java/com/marklogic/recordloader/xcc/DelimitedDataConfiguration.java了解更多配置选项。

相关内容

  • 没有找到相关文章

最新更新