优化Solr DataImportHandler设置以实现完全导入速度



我有一个使用DataImportHandler2的Solr服务器设置。使用我当前的设置,完全导入需要8-9个小时。我想优化设置以减少时间,但文档中不太清楚各种设置的作用和副作用。

该服务器是一个m2.2x大型AWS实例(34.2 GB RAM)。Solr版本为3.6.1.2012.07.17.12.45.52。Solr在Tomcat 7.0.30上运行。Tomcat使用-Xms4096m-Xmx28672m运行。

在solrconfig.xml中,mergeFactor为10,useCompoundFile为false。从data-config.xml中,autoCommit为true,batchSize为-1。DataImportHandler正在使用的查询返回600万条记录。

在查看mergeFactor等人之前,您应该先查看db-data-config.xml中的实体。如果您在其他实体中有实体,这些实体将生成大量sql请求。您需要处理sql以不执行内部实体,或者查看CachedSqlEntityProcessor等

最新更新