管理网站的静态信息,同时跨网站实现搜索 API 的最佳方法是什么



最近,Google创建了一个新的搜索API,您可以将其集成到Google应用引擎应用程序中,以搜索站点中的文档和信息。 凉!

我有一个网站,它有很多Django资源,其中包含大量的静态信息。 我想使用新的搜索 API 将此信息集成到站点范围的搜索引擎中。

对于拥有现有网站和大量用于内容的文本资源的用户,将静态信息(来自平面 HTML 文件)集成到网站搜索 API 数据存储中的最佳方法是什么? 奖励问题,管理此内容的最佳方式是什么,以便在向站点添加其他页面时,这些页面将集成到搜索数据存储中?

搜索 API 要求将文档添加到搜索后端才能进行搜索。对于静态资源,这意味着必须使用搜索 API 对其进行爬网并将其添加到搜索后端。

您可能希望在每次上传后执行此操作。也许最简单的方法是有一个 cron 作业来遍历您的文件并检查它们的时间戳。如果它们比上次遍历时更新(如果有的话),请在搜索后端中添加/更新它们。除了 cron 作业之外,您还可以定义一个处理程序,该处理程序触发遍历并在部署新的应用程序版本后命中。

最新更新