[Data Science 到底是什麼從一個完全外行角度來看][07]更深入看看Hadoop裡面的YARN和HDFS
在上一篇([06]建立Hadoop環境 -下篇)把hadoop pseudo-distributed mode整個建立了起來,在這個過程中有透過 jps看到啟動的時候有5個process:
- NameNode
- SecondaryNameNode
- ResourceManager
- NodeManager
- DataNode
這些process分別是yarn和HDFS執行起來的process,其中Master會有前 3個而slave有後 2個
這篇將會對於這幾個問題做一些介紹。
這篇提到的架構屬於Hadoop 2.x 版本的內容,Hadoop 3 之後有所變動。
2017-12-25 Monday
hadoop
devops
「data science 到底是什麼從一個完全外行角度來看」
[Data Science 到底是什麼從一個完全外行角度來看][05]建立Hadoop環境 -上篇
上一篇([04]Hadoop是什麼?)以一個非常高的overview看了Hadoop是什麼,在接下來將會把理論轉成實際操作,將建立一個Ubuntu 的 VM上面架設hadoop並且跑一個MapReduce的hello world程式,WordCount(算字數)。
等到跑完範例之後,將會在深入一點看hadoop的MapReduce和HDFS運作模式。
首先,從建立環境開始。
2017-12-23 Saturday
hadoop
「data science 到底是什麼從一個完全外行角度來看」
data science
[Data Science 到底是什麼從一個完全外行角度來看][04]Hadoop是什麼?
在上一篇([03]Big Data到底是有多Big?)了解到了Big Data的3個V,也就是量、增長速度和多元格式的挑戰,這篇來看看讓管理一切變得有可能的軟體:Hadoop。
這篇將介紹Hadoop的由來,為什麼這麼重要,不同版本之間的差異,和基本架構。
2017-12-22 Friday
hadoop
「data science 到底是什麼從一個完全外行角度來看」
data science
[Data Science 到底是什麼從一個完全外行角度來看][03]Big Data到底是有多Big?
2017-12-21 Thursday
「data science 到底是什麼從一個完全外行角度來看」
data science
[Data Science 到底是什麼從一個完全外行角度來看][02]Data Science 是什麼?
如果說資料(data)和石油一樣是最有價值的資源,那麼Data Science就同等於從原油提煉出石油的技術。
上篇([01]開篇)了解了整個系列的內容之後,這篇來了解一下 Data Science 到底是什麼?需要什麼技能/技術?和到底怎麼把data提煉出來變成可以用來做使用的資訊(變成石油)。
2017-12-20 Wednesday
「data science 到底是什麼從一個完全外行角度來看」
data science