MapReduce and Hive, Hadoop



对于此问题,请使用以下数据集和方法: 数据集:~rose/public_html/590B/airline/200X.csv,其中 X 为 0、2、3、4、5、6、7 或 8 注意:我们的分析中不包括 2001.csv,因为该数据集已损坏。

您可能想知道数据何时会变大。这些文件中的每一个都包含以下记录: 数百万次飞行。该数据集中总共有超过5300万个航班。如果使用 wget 传输文件,则命令的格式为: WGET https://cse.sc.edu/~rose/590B/airline/2000.csv

这个问题是我们理解map-reduce从计算单词,到计算航班,再到评估航空波动性的有机延伸。首先计算每个年度数据集中每家航空公司有多少航班。有关列的定义,请参阅:http://stat- computing.org/dataexpo/2009/the-data.html 。

此问题的目标是确定那些从一年到下一年的航班数量发生重大变化的航空公司。在这个问题的情况下,我们将定义重大变化:1(承运人可能不复存在,在随后的几年中没有航班,或2(新的承运人可能成立,或3(承运人不复存在,但在随后的几年中以相同的名称转世。 方法:查找每个年度数据集的每个航空公司的航班数量。下载每年的结果。

我试图弄清楚这一点,但我一直陷入困境,甚至不知道如何开始。任何帮助将不胜感激。

  1. 如前所述,使用 wget 下载每个文件
  2. 使用 hdfs -put 命令将所有文件上传到单个 HDFS 目录
  3. 编写解析 CSV 列并计算每个航空公司的代码(我假设您已经编写了字数(
  4. 使用该 csv 目录作为作业输入并运行代码

目前尚不清楚Hive需要在哪里适应,但我认为您已经向您展示了如何在文本文件上创建外部表,因此您可以执行此操作并运行类似select count(*) from airlines group by airline

最新更新