MapReduce - Mark/Reset of Values Iterator

不曉得是否有人和我有同樣的疑問，就是關於能否將reduce function中的「Iterator」改為「ResettableIterator」，雖然這可以在reduce中花額外的功夫來達成，不過總覺得不是一種有效率的方式，最近看了一下Hadoop相關文件，顯然不是只有我有這樣的需求與想法，因為在Hadoop 0.21.0已經將此功能補上了(Values Iterator should support "mark" and "reset")，用法如下：

WordCount - reudce function

public void reduce(Text key, Iterable<IntWritable> values, Context context) throws IOException, InterruptedException
{
	int sum = 0;
	Iterator<IntWritable> i = values.iterator();
	while(i.hasNext())
	{
		sum += i.next().get();
	}
	result.set(sum);
	context.write(key, result);
}

上述程式是一般WordCount程式中的reduce function，假設現在要為「每個單字多累加一次出現次數」，修改後的reduce程式如下：

修改後的WordCount

public void reduce(Text key, Iterable<IntWritable> values, Context context) throws IOException, InterruptedException
{
	int sum = 0;
	MarkableIterator<IntWritable> mitr = new MarkableIterator<IntWritable>(values.iterator());
	mitr.mark();
	while (mitr.hasNext()) 
	{
		sum += mitr.next().get();
	}
	mitr.reset();
	while (mitr.hasNext()) 
	{
		sum += mitr.next().get();
	} 
	result.set(sum);
	context.write(key, result);
}

從上述程式可以知道它採用「MarkableIterator」來取代先前所使用的「Iterator」，而關於MarkableIterator詳細的實作細節可以從Hadoop 0.21.0 原始碼中的「org.apache.hadoop.mapreduce.task.ReduceContextImpl」程式來查看，另外可以發現原本出現在Hadoop 0.20.x的ValueIterator class(in ReduceContext.java)，這在Hadoop 0.21版也都被改寫過了，原先該ValueIterator class只是單純的實作Iteraotr，而這在Hadoop 0.21.0 已將該ValueIterator class改為實作「ReduceContext.ValueIterator」，而ReduceContext.ValueIterator繼承「MarkableIteratorInterface」。

2011-01-19 11:48:54

MapReduce - Mark/Reset of Values Iterator

MapReduce - Mark/Reset of Values Iterator

Leave a Comment

::: 搜尋 :::

::: 分類 :::

::: 最新文章 :::

::: 最新回應 :::

::: 訂閱 :::