MLCP内容转换和触发器是否可以在文档接收过程中一起使用



据我所知,MLCP转换和触发器都可以用于修改摄入的文档。不同之处在于,内容转换在摄取过程中对内存中的文档对象进行操作,而触发器可以在创建文档后触发。

所以在我看来,我没有理由不能同时使用它们。我的用例是,在文档被摄入数据库后,我需要更新文档的一些节点。我使用触发器的原因是,在使用in-mem-update模块的MLCP转换中运行相同的逻辑总是会导致摄取失败,可能是由于文件大小大和我尝试更新的节点数量多。

2018-08-22 23:02:24错误TransformWriter:546-异常:解析HTTP标头时出错:连接尝试失败是因为连接方在一段时间后没有正确响应,或者建立的连接失败是因为所连接的主机未能响应

到目前为止,我还无法组合内容转换和触发器。当我在MLCP接收期间启用转换时,触发器没有被触发。当我禁用转换时,触发器工作正常。

我不能同时使用它们有什么内在的原因吗?还是与我的配置有关?谢谢

编辑:

我想根据@ElijahBernstein Cooper、@MadsHansen和@grtjn的建议提供一些澄清和报告结果的背景(谢谢!)。我使用MarkLogic数据中心框架将PDF文件(有些相当大)作为二进制文件,并将文本提取为XML。除了使用xdmp:pdf-convert而不是xdmp:document-filter之外,我基本上遵循了这个示例:https://github.com/marklogic/marklogic-data-hub/blob/master/examples/load-binaries/plugins/entities/Guides/input/LoadAsXml/content/content.xqy

虽然xdmp:pdf-convert似乎比xdmp:document-filter更好地保留了PDF结构,但它也包括一些我不需要的样式节点(<link><style>)和属性(classstyle)。在试图去除它们的过程中,我探索了两种不同的方法:

  1. 第一种方法是使用in-mem-update模块从上述content.xqy脚本中的内存中文档表示中删除不需要的节点,作为内容转换流程的一部分。问题是这个过程可能很慢,正如@grtjn所指出的,我必须限制并行化以避免超时
  2. 第二种方法是使用提交后触发函数,在文档被摄入数据库后使用xdmp:node-delete修改文档。但是,当触发条件设置为document-content("create")时,触发器不会触发。如果我将条件更改为document-content("modify"),它确实会触发,但由于某种原因,我无法使用类似于此SO问题的fn:document($trgr:uri)访问文档(MarkLogic 9 sjs触发器无法访问post-commit()文档数据)

MLCP变换和触发器独立运行。这些转换中没有任何东西可以阻止触发器本身工作。

触发器是由事件触发的。我通常使用创建和修改触发器来覆盖第二次导入相同文件的情况(例如,出于测试目的)。

触发器也有一个作用域。它们被配置为查找目录或集合。确保您的MLCP配置与Trigger作用域匹配,并且您的Transform不会影响URI,使其不再与使用的目录作用域匹配。

然而,仔细查看错误消息,我认为这是由超时引起的。超时既可能发生在服务器端(默认情况下为10分钟),也可能发生在客户端(可能取决于客户端设置,但可能要小得多)。消息基本上说服务器响应时间太长,所以我认为您正面临客户端超时。

超时可能是由于时间限制过小造成的。您可以尝试增加服务器端(xdmp:set-request-time-limit())和客户端的超时设置(不确定如何在Java中做到这一点)。

不过,更常见的情况是,你只是试图在同一时间做太多。MLCP打开事务,并尝试在该事务中执行多个批处理,也称为transaction_size。每个批次都包含一些batch_size大小的文档。默认情况下,MLCP尝试处理每笔交易10 x 100=1000个文档。

默认情况下,它还使用10个线程运行,因此它通常同时打开10个事务,并尝试运行10个线程来并行处理每个1000个文档。有了简单的插件,这就很好了。由于转换或预提交触发器的处理量更大,这可能会成为瓶颈,尤其是当线程开始争夺内存和cpu等服务器资源时。

xdmp:pdf-convert这样的函数通常相当慢。对于初学者来说,它依赖于一个外部插件,但也可以想象它必须处理一个200页的PDF。二进制文件可以很大。你需要放慢速度来处理它们。如果使用-transaction_size 1 -batch_size 1 -thread_count 1使您的转换工作,那么您确实面临超时,并且可能已经淹没了服务器。从那里你可以看到一些数字的增加,但二进制大小可能是不可预测的,所以要保守。

异步进行繁重的处理可能也值得一看,例如使用内容处理框架CPF。它是一个用于处理内容的非常健壮的实现,设计用于在服务器重新启动后幸存下来。

啊!

相关内容

  • 没有找到相关文章

最新更新