Pig - 用pig加载Word文档(.doc和.docx)



我无法用pig加载Microsoft Word文档(.doc或.docx)。事实上,当我尝试这样做时,通过使用TextLoader()、PigStorage()或根本不使用加载器,它都不起作用。输出是一些奇怪的符号。

我听说我可以用JAVA编写一个自定义加载程序,但这似乎真的很难,我并不低估我们目前如何编写其中一个。

我想把所有.doc文件的内容放在一个单独的字符数组包里,这样我以后就可以使用过滤功能来处理它

我该怎么办?

感谢

他们是对的。由于.doc和.docx是二进制格式,因此简单的文本加载程序无法工作。您可以编写UDF以将文件直接加载到Pig中,也可以进行一些预处理,将所有.doc和.docx文件转换为.txt文件,以便Pig加载这些.txt文件。此链接可以帮助您开始寻找转换文件的方法。

不过,我还是建议您学习编写UDF。预处理文件将增加可以避免的大量开销。

更新:以下是我过去用于编写java(Load)UDF的一些资源。一,二。

最新更新