处理大数据的编程语言



最近我有时间学习数据可视化,作为Excel图表的一种替代。我的选择是R(与ggplot2),并开始学习它。

在"R In a nutshell"中,Joseph Adler说:

通常,我使用像Perl这样的工具来预处理大文件

我建议使用脚本语言,如Perl、Python或Ruby预处理大型、复杂的文本文件,并将其转换为易于理解的文本文件的形式。(作为旁注,我通常会列出字段名称和长度,然后使用Excel公式创建R或Perl加载它们的代码

背后的思想是Unix哲学——让每个工具都做好自己的工作,让它们一起工作。因此,从长远来看,我计划学习:

  • R用于可视化,
  • 另一种数据编程语言
问题是该学哪一种语言?

我没有计算机科学背景,同时Perl对我来说太难了。我在网上搜索了一下,发现Haskell和Clojure非常有趣。由于这里有很多程序员+统计学家,我想知道,哪一个作为大数据处理的目的与R很好?

尼克

我真的不喜欢在工作流中有太多的工具。如果我可以只使用R,我更喜欢它。您最终不得不手动连续运行几个工具,这使得再次运行更多的工作。或者您花时间连接不同的工具,这会花费时间并引入自己的一组问题。

对于一个初学编程的人来说,坚持使用R语言还有另一个好处:你可以把所有的时间都花在学习一门语言上,也就是说,你不会成为一个万事通,却什么都不精通的人。

我使用几种相邻的编程语言(R, Python, IDL, Fortran),但对于数据处理,如果可以的话,我倾向于坚持使用纯R。

在这个空间里我个人选择的工具是Incanter

结合

:

  • 受R
  • 启发的统计/可视化功能Clojure作为通用编程语言的使用
  • 在JVM上运行,可以访问所有Java库:如果你想与其他系统集成或直接在生产中使用,这是一个很大的好处。
总的来说,从纯粹的统计角度来看,Clojure还没有R那么复杂,但在我看来,Clojure是一种更好、更有能力的通用语言。因此,如果你想使用这些数据构建生产应用程序,整个包会更有用。

我会选择python,主要是因为:

  1. 更容易阅读/理解
  2. R-python桥可以让你很容易地集成这两种语言。

相关内容

最新更新