将Excel文件加载到配置单元表的最佳方式是什么?是否有命令将它们更改为制表符分隔的格式?
您可以通过tika解析或apache pos解析xls电子表格。
https://poi.apache.org/https://tika.apache.org/
你需要一种java语言来使用这些东西,所以考虑groovy、jython、clojure、scala,或者如果你知道的话,考虑java。
我正在对hdfs中的一堆xlsx文件进行类似的处理,在输出进入hive之前进行这种预处理。希望你的xlsx表有点直截了当,只是类似于2d数据集。(嵌入的数据透视表、图表等不会与任何上下文一起进入蜂窝。)
祝你好运,它不漂亮。。。xls很难使用,因为它非常灵活。
您可以尝试最新版本的HadoopOffice库,该库具有用于Excel文件的HiveSerdehttps://github.com/ZuInnoTe/hadoopoffice/wiki