我正在读取两组目录(比如dirA和dirt)作为MapReduce作业的输入,我需要以某种方式对它们进行不同的标记,以便在映射阶段知道哪个来自哪个。有什么建议吗?
您可以使用MultipleInputs进行调查,并为每个输入路径定义不同的映射器,或者检查输入拆分(Context.getInputSplit()-将其转换为FileSplit并获取路径),并相应地调整输出。
我正在读取两组目录(比如dirA和dirt)作为MapReduce作业的输入,我需要以某种方式对它们进行不同的标记,以便在映射阶段知道哪个来自哪个。有什么建议吗?
您可以使用MultipleInputs进行调查,并为每个输入路径定义不同的映射器,或者检查输入拆分(Context.getInputSplit()-将其转换为FileSplit并获取路径),并相应地调整输出。
javascript python java c# php android html jquery c++ css ios sql mysql arrays asp.net json python-3.x ruby-on-rails .net sql-server django objective-c excel regex ruby linux ajax iphone xml vba spring asp.net-mvc database wordpress string postgresql wpf windows xcode bash git oracle list vb.net multithreading eclipse algorithm macos powershell visual-studio image forms numpy scala function api selenium