在不同的工具集中,内联网搜索引擎有哪些工具



基本要求:

  • 应该能够索引MediaWiki、Confluence、Sharepoint、GitHub:Enterprise、Askbot等内容
  • 应该对重复数据消除结果相当明智(Confluence搜索如此痛苦的原因之一)
  • 肯定应该包含启发式方法,比如有多少页面链接到一个文档,搜索词是否在文档的标题中,等等。如果有一种方法可以让用户降低特定结果的排名,那可能是一个额外的奖励
  • 应该是可调的(例如,更喜欢Confluence而不是Sharepoint,将某些路径列入黑名单)

有现成的产品可以做到以上吗?FOSS项目?是否有FOSS项目可以为上述内容提供基础,并且易于扩展或构建前端?

您可以尝试ApacheSolr,它是一个很棒的工具。

根据网站:

Solr是流行的、快速的开源企业搜索Apache Lucene项目的平台。它的主要特点包括强大的全文搜索,点击突出显示,分面搜索,接近实时索引、动态集群、数据库集成、丰富文档(例如Word、PDF)处理和地理空间搜索。Solr高度可靠、可扩展和容错,提供分布式索引、复制和负载平衡查询、自动故障切换以及恢复、集中配置等。Solr为世界上许多最大的互联网的搜索和导航功能网站。

您可以尝试捆绑版本的Solr和其他工具,如OpenESP或Constellio。预计将花费一些时间调整源代码和导入。与OpenESP捆绑在一起的ManifoldCF是一个开源连接器/爬网程序框架,用于插入与您所描述的各种系统的连接器,并且有几个连接器是开箱即用的。

您可以尝试Moogle。它是开放源码的,可以在带有IIS的窗口中轻松使用。只是看起来像谷歌,所以你觉得有点熟悉它。试试看http://techstuff.smsjuju.com/intranet-search-engine/

相关内容

  • 没有找到相关文章

最新更新