[Data Science 到底是什麼從一個完全外行角度來看][12]Hadoop總結(下篇) - 一切才剛剛開始
上一篇(11]Hadoop總結(上篇) - 一切才剛剛開始)介紹了Hadoop的Ecosystem之後,了解到有很多package建立在Hadoop上面。
不過一個問題會浮現出來,這門多package,怎麼讓他們互相溝通沒有問題?畢竟版本和版本之間很有可能會有相容性問題。
這就是Hadoop Distribution的作用,一些整理好包成一包的Hadoop Ecosystem,有些distribution還包括一些管理界面讓整個管理變得更加簡單。
2017-12-30 Saturday
hadoop
「data science 到底是什麼從一個完全外行角度來看」
data science
[Data Science 到底是什麼從一個完全外行角度來看][10]用.Net Core跑Hadoop MapReduce - Streaming介紹
上一篇([09]了解Hadoop裡的MapReduce到底是什麼?)了解了什麼是MapReduce,並且了解了怎麼用Java寫一個MapReduce的Hello World程式:WordCount。
馬上會想到的一個問題是,難道只有Java可以寫MapReduce的程式嗎?
這篇將會介紹Hadoop的Streaming服務,讓任何語言只要透過Standard Input和Standard Output就可以寫出MapReduce程式。 將會使用最熟悉的語言,.Net Core來完成這個事情。
在這篇也會介紹另外一種測試Hadoop的方式,使用Docker來測試。
2017-12-30 Saturday
docker
hadoop
「data science 到底是什麼從一個完全外行角度來看」
data science
net-core
[Data Science 到底是什麼從一個完全外行角度來看][09]了解Hadoop裡的MapReduce到底是什麼?
在上一篇([08]Hadoop 改成完全分散模式)透過複製VM的方式建立出了fully-distributed mode,基本上在這個系列裡面對於Hadoop的介紹也快到了一個尾聲。
不過,還有一個部分被忽略了,也就是實際在Hadoop做運算的程式,也是WordCount的實際運算邏輯。
這篇會介紹MapReduce的概念,並且看一下WordCount的java程式是如何撰寫。
2017-12-27 Wednesday
hadoop
「data science 到底是什麼從一個完全外行角度來看」
data science
[Data Science 到底是什麼從一個完全外行角度來看][07]更深入看看Hadoop裡面的YARN和HDFS
在上一篇([06]建立Hadoop環境 -下篇)把hadoop pseudo-distributed mode整個建立了起來,在這個過程中有透過 jps看到啟動的時候有5個process:
- NameNode
- SecondaryNameNode
- ResourceManager
- NodeManager
- DataNode
這些process分別是yarn和HDFS執行起來的process,其中Master會有前 3個而slave有後 2個
這篇將會對於這幾個問題做一些介紹。
這篇提到的架構屬於Hadoop 2.x 版本的內容,Hadoop 3 之後有所變動。
2017-12-25 Monday
hadoop
devops
「data science 到底是什麼從一個完全外行角度來看」