可以将来自AWS S3存储桶中的CSV文件配置为直接进入ML,或者文件需要在某个地方降落,然后CSV文件必须使用MCLP摄入?
假设您在S3存储桶中有CSV文件,并且CSV文件中的一行应插入为单个XML记录...这在您的问题中尚不清楚,但是是最常见的用例。如果您的计划是仅将文件拉入并将其持续为CSV文件,则可以使用无证件的XQUERY函数来访问S3存储桶并将文件拉开。无论如何,MLCP文档对理解这种非常多功能且功能强大的工具非常有帮助。
根据文档(https://developer.marklogic.com/products/mlcp(,受支持的数据源为:
- 本地文件系统
- HDFS
- 标记档案
- 另一个标记数据库
您可能会将S3存储键安装到EC2上的本地文件系统上,以绕过使MLCP访问的文件的需求。Google是您的朋友,如果这很重要。我个人还没有看到过生产稳定的方法,但是自从我尝试过已经很长时间了。
无论如何,您需要在受支持的源上提供这些文件,在这种情况下,很可能是文件系统位置,在这种情况下,可以运行MLCP并可以到达文件。我想这就是您将文件降落在某个地方的意思。MLCP可以在导入模式下处理划界文件。该文档非常适合理解所有选项。