[Data Science 到底是什麼從一個完全外行角度來看][07]更深入看看Hadoop裡面的YARN和HDFS

2017-12-25 Monday

「data science 到底是什麼從一個完全外行角度來看」 devops hadoop

圖片來源： https://pixabay.com/en/books-spine-colors-pastel-1099067/ 和 https://pixabay.com/en/math-blackboard-education-classroom-1547018/

在上一篇（[06]建立Hadoop環境 -下篇）把hadoop pseudo-distributed mode整個建立了起來，在這個過程中有透過 jps看到啟動的時候有5個process：

NameNode
SecondaryNameNode
ResourceManager
NodeManager
DataNode

這些process分別是yarn和HDFS執行起來的process，其中Master會有前 3個而slave有後 2個

這篇將會對於這幾個問題做一些介紹。

這篇提到的架構屬於Hadoop 2.x 版本的內容，Hadoop 3 之後有所變動。

Hadoop Cluster架構
JobTracker和TaskTracker

YARN - ResourceManager
localhost:8088

NameNode、DataNode和Secondary NameNode

Secondary NameNode呢？
localhost:50070

結語

Hadoop Cluster架構

在介紹幾個jps之前，需要了解Hadoop Clusted的架構。

Hadoop屬於Client/Server架構，基本上會有 一個Master， 多個slave。

因為Master很重要，所以2.x版本可以為master做High Availability和Federation。

在上一篇建立的屬於 pseudo-distributed mode，換句話說Master和Slave都是同一台，所以才看到了5個process。

以下圖來說，是一個Master配上兩個Slave。master和slave裡面又可以分開兩層：MapReduce 和 HDFS 層

不同層的內容。來源：http://saphanatutorial.com/how-yarn-overcomes-mapreduce-limitations-in-hadoop-2-0/

注意，這邊的MapReduce層用的是Hadoop 1.x 的名稱。以2.0來說應該是YARN層。

JobTracker和TaskTracker

先來看看上面那層，可以看到：

JobTracker - 在Master
TaskTracker - 在Slave

當一個工作被記錄的時候（例如呼叫WordCount.jar），會先進入到 JobTracker，再由JobTracker去切割分派給 slave的 TaskTracker去做執行。最後TaskTracker在回報結果到JobTracker裡面。

job分派情況，來源：http://saphanatutorial.com/mapreduce/

YARN - ResourceManager

看到這邊，或許會奇怪，為什麼jps裡面沒有JobTracker和TaskTracker？原因是，JobTracker和TaskTracker是 MapReduce Layer層的內容，而Hadoop 2.0加上了YARN，因此在jps看到的是 ResourceManager和 NodeManager。

簡單來說，可以理解成為: