在完成这些教程后,我安装并运行了Solr 9(在Windows 10上(-https://solr.apache.org/guide/solr/latest/getting-started/solr-tutorial.html
我使用的是安装附带的techproducts_config,它应该处理多种文件类型,因为当我尝试使用内置的post.jar进行索引时,输出状态为:
java -jar -Dc=cd2 -Dauto .post.jar /pathTo/myFiles
Entering auto mode. File endings considered are xml,json,jsonl,csv,pdf,doc,docx,ppt,pptx,xls,xlsx,odt,odp,ods,ott,otp,ots,rtf,htm,html,txt,log
然而,对于我的每个文件,post工具都会报告一个404:
POSTing file example1.txt (text/plain) to [base]/extract - SimplePostTool: WARNING: Solr returned an error #404
只有当我调用特定的文件类型(文本文件,在这里(时,我才能成功:
java -jar -Dc=cd2 -Dauto .post.jar /pathTo/myFiles/*.txt
我使用的内置solrconfig.xml
有一个更新处理程序:
<requestHandler name="/update/extract" startup="lazy" class="solr.extraction.ExtractingRequestHandler" >
删除所有内容并开始清理后即可工作。