Hadoop - Mapper如何處理Split？

在開始進入主題之前，先回顧一下HDFS的儲存方式，在HDFS中預設每個Block Size是64MB(dfs.blocksize:67108864)，意指為如果寫一個大於64MB的檔案到HDFS之中，那麼它會自動地將檔案以64MB為基礎來進行切分的動作，這裡我們實驗一個例子：

筆者從「Peter Norvig: How to Write a Spelling Corrector」下載了一個大約包含一佰萬個單詞的純文字文件「big.txt」來實驗，不過由於該檔案約只佔了6MB(6488666)，所以透過下述指令將它擴展成大於64MB：

P.S. 請執行12次 = =" (謎之音：有更快的方式嗎？..Orz)

cat big.txt >> test.txt

現在的「test.txt」檔案大約有77MB了(77863992)，接著將它寫到HDFS並透過hadoop fsck指令來觀察一下：

bin/hadoop dfs -mkdir /testfile
bin/hadoop dfs -put test.txt /testfile/
bin/hadoop fsck /testfile/test.txt -blocks -files -locations

結果：

0. blk_-4603164807368241811_6252 len=67108864 repl=1 [127.0.0.1:50010]
1. blk_1896285744196882269_6252 len=10755128 repl=1 [127.0.0.1:50010]

從上述的結果來看，「test.txt」的確被切分成兩個Block單位了，分別佔了「67108864」和「10755128」bytes的檔案大小，而從這兩個Block所包含的內容來看可以發現，介於兩個Block之間的「mucous」單詞硬是被拆散成了兩半(「m」和「ucous」)？

blk_-4603164807368241811 - tail

Definition.--Virus.--ACQUIRED SYPHILIS--Primary period:
    _Incubation, primary chancre, glandular enlargement_;
    _Extra-genital chancres_--Treatment--Secondary period: _General
    symptoms, skin affections, m

blk_1896285744196882269 - head

ucous patches, affections of bones,
    joints, eyes_, etc.--Treatment: _Salvarsan_--_Methods of
    administering mercury_--Syphilis and marriage--Intermediate
    stage--_Reminders_--Tertiary period: _General symptoms_,

而這樣的情況在執行MapReduce又是如何處理的？由於在Map階段執行時是一個Mapper對應一個Split，重點就在於該Block最後的「mucous」單字硬是被拆成兩半，而這在Map階段又是如何處理的？總不可能跑個「WordCount」都會有問題吧？而這就是本文的主軸，既然上述「mucous」單詞被拆散成兩半，那麼就應該有對應的處理方式，透過「TextInputFormat」原始碼可以得知它採用「LineRecordReader」來讀取Block的資料內容，如果看過「LineRecordReader」原始碼的話其實已經發現答案了!不過筆者為求實驗正確仍改了一下原始碼去確認，結果證實：

「一個Mapper在讀取一個Block的時候，如果該Block不是檔案(e.g. test.txt)的最後一個Block時，那麼它會多讀取下一個Block的第一行資料」，也就是說處理第一個Block的Mapper最後會讀取「symptoms, skin affections, mucous patches, affections of bones,」這一整行就對了，當然下一個Mapper去處理第二個Block時就自動忽略第一行的資料了，以此類推。

雖然處理的方式很簡單，不過沒看過Source Code就是不曉得它怎麼處理的.. Orz

P.S. 關於這個問題之前同事曾問過我，那時看了Source Code之後一直沒時間實際去驗證它，所以本文記錄了這個驗證過程。

Hadoop - Mapper如何處理Split？

Hadoop - Mapper如何處理Split？

Leave a Comment

::: 搜尋 :::

::: 分類 :::

::: 最新文章 :::

::: 最新回應 :::

::: 訂閱 :::