最近我有时间学习数据可视化,作为Excel图表的一种替代。我的选择是R(与ggplot2),并开始学习它。
在"R In a nutshell"中,Joseph Adler说:
通常,我使用像Perl这样的工具来预处理大文件
我建议使用脚本语言,如Perl、Python或Ruby预处理大型、复杂的文本文件,并将其转换为易于理解的文本文件的形式。(作为旁注,我通常会列出字段名称和长度,然后使用Excel公式创建R或Perl加载它们的代码
背后的思想是Unix哲学——让每个工具都做好自己的工作,让它们一起工作。因此,从长远来看,我计划学习:
- R用于可视化,
- 另一种数据编程语言
我没有计算机科学背景,同时Perl对我来说太难了。我在网上搜索了一下,发现Haskell和Clojure非常有趣。由于这里有很多程序员+统计学家,我想知道,哪一个作为大数据处理的目的与R很好?
尼克我真的不喜欢在工作流中有太多的工具。如果我可以只使用R,我更喜欢它。您最终不得不手动连续运行几个工具,这使得再次运行更多的工作。或者您花时间连接不同的工具,这会花费时间并引入自己的一组问题。
对于一个初学编程的人来说,坚持使用R语言还有另一个好处:你可以把所有的时间都花在学习一门语言上,也就是说,你不会成为一个万事通,却什么都不精通的人。
我使用几种相邻的编程语言(R, Python, IDL, Fortran),但对于数据处理,如果可以的话,我倾向于坚持使用纯R。
在这个空间里我个人选择的工具是Incanter
结合:
- 受R 启发的统计/可视化功能Clojure作为通用编程语言的使用
- 在JVM上运行,可以访问所有Java库:如果你想与其他系统集成或直接在生产中使用,这是一个很大的好处。
我会选择python,主要是因为:
- 更容易阅读/理解
- R-python桥可以让你很容易地集成这两种语言。