将R中的机器学习包应用于大型数据集



我有一个大约1GB的数据集,它不适合内存(因为当我们在R中应用LM时,它还创建了其他消耗内存的变量)。我想知道是否有一种方法可以在R中使用那些很好的机器学习包(例如,glm,随机森林,神经网络)来进行这种情况下的分析?谢谢大家的建议和参考。

查看CRAN的高性能任务视图,特别是关于大内存和内存外数据的部分。

或者:你可能需要花钱,但是考虑使用Microsoft R Server。MRS,以前被称为Revolution R Enterprise,是为了在处理大型数据集时打破内存障碍而设计的。它可以在Windows和Linux上使用,也可以使用SQL Server, Teradata, Hadoop (Cloudera, Hortonworks和HDInsight)和Spark进行数据库内分析。

披露:我是微软员工

如果你可以使用Spark,考虑使用sparklyr (free)

最新更新