作为hadoop mapper函数在单线程中执行的级联函数



我正在阅读级联文档第5.2章函数,我想知道下面的代码会发生什么。它应该在多线程环境下工作吗?更普遍的问题是,函数可以是多线程的吗?我知道单个映射器是单线程的。

具体来说,我已经测试了这样的代码,在我看来,这不是线程安全的。也许我没有正确理解第(39)页的文档。

public class NotThreadSafeObject{ 
 ...
 public void doSomething(){
       // update state
 }
 public String getValue(){
       // returns value from state 
 }
public class SomeFunction extends BaseOperation<Tuple> implements Function<Tuple>
 {
    // constructors
   @Override
   public void prepare( FlowProcess flowProcess, OperationCall<Tuple> call )
   {
   // create a reusable Object with state of size 1
    call.setContext( new NotThreadSafeObject() );
   }
   public void operate( FlowProcess flowProcess, FunctionCall<Tuple> call )
   {
     // ...
     NotThreadSafeObject obj = call.getContext();
     obj.doSomething(); 
     Tuple tup = new Tuple();
     tup.set(0,obj.getValue());  
     call.getOutputCollector().add(tup);
   }
   @Override
   public void cleanup( FlowProcess flowProcess, OperationCall<Tuple> call )
   {
      call.setContext( null );
   }
}

根据Cascading文档,这应该可以很好地工作,这实际上是在非聚合操作中使用Context的主要原因。

相关内容

  • 没有找到相关文章

最新更新