我有一个Excel文件,在HDFS中有许多工作表(大约50个)。我必须从使用mapreduce的Excel文件的一张表中读取。有人能告诉我怎么做吗?
这里建议使用一种方法-在hadoop map reduce中读取excel文件
否则有人已经创建了excel输入格式作为这类问题的标准解决方案。阅读本文-https://sreejithrpillai.wordpress.com/2014/11/06/excel-inputformat-for-hadoop-mapreduce/
有一个github项目和代码库。
看这里- https://github.com/sreejithpillai/ExcelRecordReaderMapReduce/
另一个选择是HadoopOffice库,它允许您在Hadoop/Spark中读写Excel文档。
https://github.com/ZuInnoTe/hadoopoffice/wiki