你能用Hadoop做什么，这是Hive不可能或很难做到的

我对Hadoop和Hive相当陌生，想要一个可以用Hadoop轻松完成但Hive不适合的例子。

所有不是"关系工作负载"的东西（例如，你也可以用SQL数据库做的事情）都不太适合Hive。可能总有一种方法也可以使用 Hive 做到这一点（主要是因为 UDF 可用），但它并不"容易"。

你正在区分"Hadoop"和"Hive"。然而，"Hadoop"是一个相当笼统的术语：它可能意味着"HDFS"（分布式文件系统），"YARN"（资源管理器）或"Hadoop"作为Google建议的"Map Reduce"算法的实现。我假设你在比较Hadoop和Hive时指的是"Map Reduce"。

我想说的是，使用MapReduce计算页面排名对于Hive来说可能很烦人。另一个例子是使用MapReduce计算TF-IDF。

TF-IDF可以使用带有Hibedemall扩展的Apache Hive进行计算。https://github.com/myui/hivemall/wiki/TFIDF-calculation

要计算 TF-IDF，只需要 2 个视图和 1 个查询。容易！

相关内容

最新更新

热门标签：