Avro文件写入HDFS导致块大小无效



当从HDFS读回文件时,我看到这些错误很多:

{"id":"646626691524096003","user_friends_count":{"int":83},"user_location":{"string":"他の星から副都心線経由"},"user_description":{"string":"Exception in thread "main" org.apache.avro.AvroRuntimeException: java.io.IOException: Block size invalid or too large for this implementation: -40
    at org.apache.avro.file.DataFileStream.hasNextBlock(DataFileStream.java:275)
    at org.apache.avro.file.DataFileStream.hasNext(DataFileStream.java:197)
    at org.apache.avro.tool.DataFileReadTool.run(DataFileReadTool.java:77)
    at org.apache.avro.tool.Main.run(Main.java:84)
    at org.apache.avro.tool.Main.main(Main.java:73)
Caused by: java.io.IOException: Block size invalid or too large for this implementation: -40
    at org.apache.avro.file.DataFileStream.hasNextBlock(DataFileStream.java:266)
    ... 4 more

,当我们尝试用各种工具读取它们时,例如:

$ java -jar ~/avro-tools-1.7.7.jar tojson FlumeData.1443002797525

将它们写入HDFS的机器是一台连接薄弱的笔记本电脑,因此很可能会经常断开连接,但损坏的文件并不是真正预期的-在这种情况下,文件似乎达到了无效块大小约11% (vim估计)通过文件的方式。

我想它即将读出的特定用户描述是Twitter用户@MyTime0627。

你可以看看这篇文章。我也遇到过这个问题。JSON SerDe和Avro SerDe不能同时处理一个事件。

Cloudera 5.4.2: Avro块大小在使用Flume和Twitter流时无效或太大

最新更新