Play Framework with Spark MLib vs PredictionIO



早上好,

目前,我正在探索为我工作的公司构建内部平台的选择。我们的团队负责公司的数据仓库和报告。

随着我们的发展,我们将开发一个内部网来满足公司的一些需求,一段时间以来,我正在考虑将scala(和PlayFramework)作为要走的路。

这也将涉及大量的机器学习来聚类客户、预测销售演变等。这时我开始思考Spark ML并遇到了PredictionIO。

随着我们将技能转向数据科学,什么将使我们/公司受益最多并学到:

  • 在Play和Spark之上构建所有内容,并在同一项目中同时使用平台和机器学习
  • 使用播放和预测IO,其中大部分内容已经准备好

我不是想根据意见提出问题,而是从您的经验/架构/解决方案中学习。

谢谢

两者都是不错的选择: 1.使用PredictionIO如果你是ML新手,很容易开始,但从长远来看它会限制你, 2. 使用spark如果您对自己的data sciencedata engineering team有信心,Spark具有出色且易于使用的API以及广泛的ML库, 说为了将东西投入生产,您将需要一些分布式火花知识 - 经验,有时要使其高效可靠是很棘手的。

以下是选项:

  1. sparkdatabricks cloud昂贵但易于使用的 Spark,无需数据工程
  2. PredictionIO如果您确定他们的ML可以解决您的所有业务案例
  3. sparkgoogle dataproc,易于管理的集群,比aws少60%,仍然需要一些工程

总之:PredictionIO快速修复,spark长期数据 - 科学/工程开发。您可以从databricks开始,以最大程度地减少专业知识开销,然后逐步转向dataproc以最大程度地降低成本

PredictionIO使用Spark的MLLib作为他们的大多数引擎模板。

我不知道你为什么要把两者分开?

PredictionIO与Spark一样灵活,也可以使用其他库,如deeplearning4j和H2O等。

最新更新