你能用Hadoop做什么,这是Hive不可能或很难做到的



我对Hadoop和Hive相当陌生,想要一个可以用Hadoop轻松完成但Hive不适合的例子。

所有不是"关系工作负载"的东西(例如,你也可以用SQL数据库做的事情)都不太适合Hive。可能总有一种方法也可以使用 Hive 做到这一点(主要是因为 UDF 可用),但它并不"容易"。

你正在区分"Hadoop"和"Hive"。然而,"Hadoop"是一个相当笼统的术语:它可能意味着"HDFS"(分布式文件系统),"YARN"(资源管理器)或"Hadoop"作为Google建议的"Map Reduce"算法的实现。我假设你在比较Hadoop和Hive时指的是"Map Reduce"。

我想说的是,使用MapReduce计算页面排名对于Hive来说可能很烦人。另一个例子是使用MapReduce计算TF-IDF。

TF-IDF可以使用带有Hibedemall扩展的Apache Hive进行计算。https://github.com/myui/hivemall/wiki/TFIDF-calculation

要计算 TF-IDF,只需要 2 个视图和 1 个查询。容易!

最新更新