推荐系统处理大规模动态数据的最有效方法是什么?



我们正在考虑基于大规模数据的推荐系统,但也在寻找一种专业的方法来保持动态数据库结构,以便更快地工作。我们考虑了一些可供选择的方法。一种方法是保存在普通的SQL数据库中,但与使用普通文件结构相比,它会慢一些。第二种是使用nosql图模型数据库,但它也与我们使用的算法不兼容,因为我们不断地将所有数据拉入矩阵。我们认为最后一种方法是使用普通文件来保存数据,但由于没有查询方法或编辑器,因此很难跟踪和观察更改。因此,有不同的方法和利弊。你的选择是什么,为什么?

我不知道为什么你提到"文件"one_answers"文件结构"这么多次,所以也许我错过了什么,但为了有效的数据处理,你显然不想把东西存储在文件中。读/写数据到磁盘是很昂贵的,而且很难在一个高效和灵活的文件系统中找到一些东西来查询文件。

我想我会从一个已经有推荐功能的产品开始:

http://mahout.apache.org/

您可以从各种算法中选择运行在您的数据上以产生推荐。

如果你想自己做,也许混合方法会起作用?您仍然可以使用图形数据库来表示关系,但是每个节点/顶点都可以是指向文档数据库或关系数据库的指针,其中将存在更"完整"的数据表示。

最新更新