-
上传文档时是否可以执行OCR?
-
我们能为整个文档编制索引吗?
-
搜索引擎能为整个文档编制索引吗?即使用户需要付费才能查看完整的文档?
-
文档是否可以显示为预览,只有选定的摘录可见,其余部分模糊,文档格式仍然可见?
我一直在尝试使用简单的php函数或一些看起来不像火箭科学的东西来找到这些问题的简单解决方案。但无论我走到哪里,我都能看到人们在谈论ApachePOI和Solr Cell,以及所有这些我不知道的服务器命令。对于最后一个问题,我只能弄清楚我们可以使用PHPGD并生成内容模糊的图像,但如果文档中有格式化的文本、图像和表格等,我不知道如何做到这一点。
因此,如果有人有简单的解决方案,甚至有复杂的解决方案但有简单的说明,这些就可以了。类似于"用于noobs的php文档内容提取",这将从它的a-b-c开始。
提前谢谢!
对于PDF和doc,可以使用命令行实用程序提取纯文本内容,如catdoc或pdftotext。如果你四处搜索,你可以找到适用于大多数文件格式的此类实用程序。它们通常由大多数发行版打包。
从原始文本格式,您可以将其提供给任何全文搜索引擎。
- 上传文档时是否可以执行OCR
当然,OCR适用于任何图像数据。OCR组件确实存在,只需使用一个即可。
- 我们能为整个文档编制索引吗
我不能告诉你"我们"是否可以,但我可以索引文件。您只需要一个文档、一个索引和一个为文档编制索引的例程。
- 搜索引擎能为整个文档编制索引吗?即使用户需要付费才能查看完整的文档
这取决于文档格式。如果文档受到保护,而索引器无法完全访问该文档,则它无法对其进行完全索引。另一方面,如果该指数能够规避保护,它无论如何都可以对其进行指数化,但在某些法律领域,这可能在法律上存在疑问。从技术上讲,这不应该是一个问题。
- 文档是否可以显示为预览,只有选定的摘录可见,其余部分模糊,文档格式仍然可见
为什么不呢?我的意思是,如果你有这样的展示程序,那有什么关系?
如果你的问题是你不熟悉所使用的技术,我建议你与熟悉的人联系,并向你解释。然而,对于一些应该存在的任务组件,需要将它们组合在一起的是您。你的问题太多了,所以有现成的解决方案。
多项式是正确的。你不会在一个地方找到这一切。即使是OCR也需要多个模块才能正常工作,而这些模块都不是完全免费的。如果你想要合理的OCR,那么你需要使用商业引擎。
你需要一个Word DOC/DOCX到TIFF转换器和一个PDF到TIFF转换器,或者你需要购买ABBYY FineReader SDK来执行OCR,这并不便宜,但肯定会比Tesseract OCR做得更好。
使用ApachePOI和Solr Cell,索引和搜索可能很容易,但模糊的预览需要一些自定义编码。
这个项目既不容易也不便宜。