我想使用 MLCP 将一些 RAW 数据放入 marklogic 中,但数据的形式是这样的
Informatio#data1 #data2#data3#data4 #data5
Informatio#data10 #data6#data7#data8 #data9
使用 MLCP 将此数据发送到 ML 9 的挑战是
- 首先第一行没有列名
- ,通常在使用mlcp时第一行就变成了下面各列的列名。而不是在第一行中有列名,还有什么方法可以将它们传递到 marklogic 中。
- 其次,由于第一列是相同的值。 生成 URI 时,将采用第一列名称,以便覆盖摄取到 ML 中的数据。在我的csv文件中没有唯一的列值,所以我不知道如何为文档生成唯一的URI。
任何帮助不胜感激
谢谢
- MLCP 命令要求分隔文本文件以标题行开头。使用您喜欢的脚本语言将其添加为预处理的一部分。
- 命令行开关
-delimited_uri_id
可以更改为另一列以进行 ID 生成。
其他可能有用的有趣想法:
- 让 MarkLogic 创建唯一的 ID(另一个命令行开关(
- 对输入使用转换来生成更具体的 URI - 可能来自复合键。
供参考: https://docs.marklogic.com/6.0/guide/ingestion/content-pump#id_70366