是否有将兽人文件转换为parquet文件的已知库/方法?否则,我正在考虑使用Spark将兽人导入数据框架,然后输出到Parquet文件
您提到的使用Spark用于读取ORC文件,创建数据框,然后将这些DFS存储为Parquet文件。这是一种完全有效且相当有效的方法!
也取决于您的喜好(也可以使用蜂巢或猪([可能是您可以在此处抛出Tez以获得更好的性能]或Java MapReduce甚至NIFI/Streamsets [取决于您的分布]。这是一个非常简单的实现,您可以做任何最适合自己最适合的[或您最适合的任何东西:(
这样做的一种方法是:
步骤1(首先,您需要从ORC表创建一个带有"存储为文本"的表步骤2(其次,您可以从上一个输出中创建一个表格为"存储为parquet"步骤3(之后,您可以丢弃中间表。