早上好,
目前,我正在探索为我工作的公司构建内部平台的选择。我们的团队负责公司的数据仓库和报告。
随着我们的发展,我们将开发一个内部网来满足公司的一些需求,一段时间以来,我正在考虑将scala(和PlayFramework)作为要走的路。
这也将涉及大量的机器学习来聚类客户、预测销售演变等。这时我开始思考Spark ML并遇到了PredictionIO。
随着我们将技能转向数据科学,什么将使我们/公司受益最多并学到:
- 在Play和Spark之上构建所有内容,并在同一项目中同时使用平台和机器学习 。
- 使用播放和预测IO,其中大部分内容已经准备好
我不是想根据意见提出问题,而是从您的经验/架构/解决方案中学习。
谢谢
两者都是不错的选择: 1.使用PredictionIO
如果你是ML
新手,很容易开始,但从长远来看它会限制你, 2. 使用spark
如果您对自己的data science
和data engineering team
有信心,Spark具有出色且易于使用的API以及广泛的ML
库, 说为了将东西投入生产,您将需要一些分布式火花知识 - 经验,有时要使其高效可靠是很棘手的。
以下是选项:
spark
databricks cloud
昂贵但易于使用的 Spark,无需数据工程PredictionIO
如果您确定他们的ML
可以解决您的所有业务案例spark
google dataproc
,易于管理的集群,比aws
少60%,仍然需要一些工程
总之:PredictionIO
快速修复,spark
长期数据 - 科学/工程开发。您可以从databricks
开始,以最大程度地减少专业知识开销,然后逐步转向dataproc
以最大程度地降低成本
PredictionIO使用Spark的MLLib作为他们的大多数引擎模板。
我不知道你为什么要把两者分开?
PredictionIO与Spark一样灵活,也可以使用其他库,如deeplearning4j和H2O等。