何时使用序列文件



我知道序列文件包含二进制值。

您能否告诉我何时应该在地图还原中使用确切的测序。

从我的朋友那里找到了一个mapreduce代码,其中他在HDFS中保留了一些MS Outlook电子邮件.他正在创建一个电子邮件搜索应用程序,因此在对电子邮件进行索引之前,他首先将它们转换为序列文件。我不知道为什么。

每次您希望 MR 作业处理一些实现Writable的自定义可序列化对象时。
例如,您的系统中有一些表示用户的对象。
此对象(例如,将其称为 UserWriable)必须包含许多字段,例如年龄名称等。 (也许在简单的情况下,使用文本就足够了,用户由逗号分隔的字符串表示,但在大多数情况下,您的 sytsem.. 或 maps/sets/list 中会有更复杂的类型字段)。
在上述情况下,需要job.setInputFormat(SequenceFileInputFormat.class);
希望有帮助...

相关内容

  • 没有找到相关文章

最新更新