Alan Tsai 的學習筆記


學而不思則罔,思而不學則殆,不思不學則“網貸” 為現任微軟最有價值專家 (MVP)、微軟認證講師 (MCT) 、Blogger、Youtuber:記錄軟體開發的點點滴滴 著重於微軟技術、C#、ASP .NET、Azure、DevOps、Docker、AI、Chatbot、Data Science

[Data Science 到底是什麼從一個完全外行角度來看][01]開篇

image
圖片來源:https://pixabay.com/en/books-spine-colors-pastel-1099067/ 和 https://pixabay.com/en/math-blackboard-education-classroom-1547018/

又到了新的一屆鐵人賽,這次和之前不一樣的是,多了團隊模式。然後,不知不覺就組成了一個團隊.... 失敗的話應該會永遠被釘死吧。

所以,為了不被釘死,要好好努力來寫啦,已經被警告,別像去年那樣,待補,結果和卡債一樣,永遠翻不了生(雖然到目前為止還在努力的補當中)。

那今年的主題是什麼呢?不是新的程式環境(OS: .Net core哪去了?),不是延伸去年內容打造更完整的建制環境(OS: 整合docker的DevOps哪去了?),而是一個完全不熟悉的領域,Data Science(資料科學)。 (如果你是工程師,那麼別錯過 1/6 在台大的 Study4.TW Study4Love - 與大師對談

今年的題目是:Data Science 到底是什麼 - 從一個完全外行角度來看


同步發佈於第九屆 2018iT 邦幫忙鐵人賽:https://ithelp.ithome.com.tw/articles/10192297

為什麼想寫這個主題?

先給各位我的背景,我其實是一個一般的Web Developer,主要使用微軟的技術,所以都是.Net、Asp .Net這些東西。從我這幾年參加過的鐵人賽可以看出,算是剛脫離junior的階段:第六屆跑去寫了java:,第七屆寫了如何自定自己的框架第八屆寫了建制Devops (也是滑鐵盧的一屆,努力還債中....),今年本來是想延續去年的主題,然後進入到Docker整合DevOps。

不過剛好在最近,因為想了解大數據(Big Data),然後有去上課(如果大家有興趣,然後在台中,可以參考看看, 最近1月也會開課:鏈接),剛好認識了Data Science的整個big picture。

不得不說,我有點震撼到,因為雖然一直以來都有聽到:Hadoop、Big Data、Machine Learning、Internet Of Things這些詞,然後也模模糊糊知道在做什麼,但是並不知道整個組合起來對世界正在造成什麼改變

雖然大家可能常常聽到,我們實在經歷工業4.0的工業革命。但是可能我們比較沒有意識到的是,每一工業革命其實都是對整個世界的巨大改變。而Data Science正是推動工業4.0的其中一個主要的推手。

image
工業革命的大事記。來源:台灣轉不動工業 4.0,如果企業經營者不丟棄成本思維

既然這麼重要,那麼正經歷變革的我們難道不需要有些了解嗎?大變革就像大海的巨浪來襲,是要準備好能在裡面游泳存活下來,還是因為措手不及而淹死?

所以,雖然對於這個領域完全是外行,而且對於我的工作上面也沒有什麼直接幫助(反而要花時間去了解),但是不記錄的話估計一個月就忘光了,因此想要借這個機會把學習到的做一個整理,方便以後回來看。

這個系列的主要程度和內容?

這個系列是給完全不了解這個領域的人看的,所以假設你有聽過Data Science(沒聽過更好)但是不知道在做什麼,那麼這個很適合。會從底層的資料到上面的Machine Learning做一個入門總覽介紹。

如果你是大神級人物(對我來說任何懂Data Science都是大神 XD),那麼也麻煩不吝指教。

整個 Data Science 其實就是在建立一個 預測模型,讓決策者可以依照這個模型去制定策略。Data Science工作就是讓這個預測模型能夠非常準確。要達到這個效果,有好多知識和技能一起組合使用才能達到。

這個系列大概會拆幾個部分:

Data Science的概觀
了解什麼是Data Science、到底在做什麼、為什麼很重要和怎麼改變世界。
Big Data的概念和Hadoop
整個的浪潮會掀起其實是因為Big Data能夠有辦法用一般電腦來做處理。因此,會先從這個部分先介紹,包含:
  • Big Data是什麼
  • Hadoop是什麼
  • 如何架設Hadoop
Data Processing - R 語言介紹
有了資料了之後,接下來就是對資料做處理。這邊會用R來介紹:
  • R的基本介紹
  • 一些統計學的介紹 - 預測其實都是統計模型,因此需要了解一些統計知識
  • 用R做資料處理
  • 視覺化資料 - 找出資料的關係
Machine Learning - 做出預測模型
有了乾淨的資料,可以來了解如何透過machine learning建立模型做出預測:
  • Machine Learning到底是什麼
  • 幾種模型的介紹
總結
一些參考資料和如何繼續下去。

需要準備什麼環境?

基本上只需要一般電腦就好,這邊範例會使用一般的Windows 10的電腦做操作,如果要在Hadoop也跟著做的話,那麼電腦記憶體要高一點,因為會用建立VM的方式架設Ubuntu。

至於後面用到的R基本上一般電腦都可以裝,所以沒有特殊要求。

結語

希望這篇讓大家有個概念,Data Science 很重要Data Science 很重要Data Science 很重要

想想,如果在做決定的時候,透過預測模型,可以讓你本來成功幾率,從-11%到+6%有利,那麼翻個幾次不就整個成功了。

下一篇,從Data Science開始介紹 - 先來了解什麼是Data Science。


如果文章對您有幫助,就請我喝杯飲料吧
街口支付QR Code
街口支付QR Code
台灣 Pay QR Code
台灣 Pay QR Code
Line Pay 一卡通 QR Code
Line Pay 一卡通 QR Code
街口支付QR Code
支付寶QR Code
街口支付QR Code
微信支付QR Code
comments powered by Disqus