「data science 到底是什麼從一個完全外行角度來看」 @ Alan Tsai 的學習筆記｜A Microsoft MVP, MCT, Blogger, Youtuber and ASP .NET Developer Blog

[Data Science 到底是什麼從一個完全外行角度來看][18]R語言基礎中篇 - 1維度資料結構介紹

圖片來源： https://pixabay.com/en/books-spine-colors-pastel-1099067/ 和 https://pixabay.com/en/math-blackboard-education-classroom-1547018/

在上一篇([17]R語言基礎上篇 - 語言特性和資料形態)提到R的Language Paradigm和R的Data Type。

裡面有提到，R其實是Vector base，換句話說一切都是vector。那vector到底有哪幾種（換句話說就是有哪些Data Structure）？

這篇將對R裡面的1維度Data Structure做介紹。

這篇的範例程式碼在github： alantsai/blog-data-science-series 裡面的 src/chapter-18-r-1-dimension-data-structure

R的Data Structure
vector - 1維並且所有內容要是一樣的type

如何建立vector
如何使用vector
如何新增和刪除資料

list - 1維但是內容形態可以不一樣

如何建立list
如何使用List

結語
參考資料

2018-02-10 Saturday
「data science 到底是什麼從一個完全外行角度來看」 r data science

[Data Science 到底是什麼從一個完全外行角度來看][17]R語言基礎上篇 - 語言特性和資料形態

在上一篇([16]用R來看股票，透過quantmod了解R的強大)用了quantmod快速了解如何使用R並且用他來做資料處理的便利性。

在這篇將會更深入一點點的介紹R的語言特色、幾種不同的資料形態。

這篇的範例程式碼在github：alantsai/blog-data-science-series 裡面的 src/chapter-17-r-language-paradigm-data-type

R的語言特性（Language Paradigm）

Vector Base - 一切都是向量
Functional Programming

R的資料形態(data type)
這篇有用到的R function
結語

2018-01-16 Tuesday
「data science 到底是什麼從一個完全外行角度來看」 r data science

[Data Science 到底是什麼從一個完全外行角度來看][15]R是什麼？準備開發R的環境 - RStudio介紹

在上一篇([14]如何問對的問題？)了解到了如何定義一個問題，那麼下一個步奏就是收集然後分析Data以解決定義的問題。

收集Data有很多方式，不過一般來說收集到的Data都需要經過一些處理才有辦法使用。

有什麼麼能處理這些Data？這篇將會對於幾種不同處理Data的方式做些介紹，並且為什麼選擇R和如何準備接下來會用到的環境，RStudio。

分析Data的工具/語言

使用軟體
使用程式語言

R的歷史
安裝R

R小檔案

RStudio介紹和安裝

RStudio小檔案

RStudio 快速介紹

主要界面
幾個設定

字體和樣式
預設的script儲存編碼改為utf-8

其他R IDE - Visual Studio

R Tools for Visual Studio

結語

2018-01-03 Wednesday
data processing 「data science 到底是什麼從一個完全外行角度來看」 r data science

[Data Science 到底是什麼從一個完全外行角度來看][16]用R來看股票，透過quantmod了解R的強大

在上篇([15]R是什麼？準備開發R的環境 - RStudio介紹)了解了R的歷史和準備好了接下來的開發環境之後，就可以開始用R來做分析了。

一般來說，在學新的語言都會先看看所謂的Hello World，了解整個語言的Syntax和感覺。

不過R不是一般型的程式語言，是給統計學家用的語言。因此，個人覺得如果只是看Hello World好像看不出來R特別的地方，不過如果直接學語法又太無聊。

因此，這邊透過安裝和使用quantmod這個套件，並且用它來簡單分析股票作為R的入門介紹。

這篇的範例程式碼在github：alantsai/blog-data-science-series 裡面的 src/chapter-16-r-quantmod-intro

quantmod是什麼？
用quantmod分析google股票

安裝和載入quantmod套件
取得google股票資訊和分析得出內容
畫出走勢
畫出黃金和死亡交叉線

結語
參考資料

2018-01-03 Wednesday
data processing 「data science 到底是什麼從一個完全外行角度來看」 r data science

[Data Science 到底是什麼從一個完全外行角度來看][14]如何問對的問題？

在上一篇([13]Data的運用 - 介紹篇)了解了整個Data Process Workflow會經過的每個步奏，並且了解到越前面的越重要

因此這篇將會從最重要的部分開始，怎麼定義一個好的問題？

什麼是好問題？

定義資料範圍
定義預測結果內容
定義預測準確度
定義使用情境
怎麼建立這個模型

看看最後定義的問題
結語

2018-01-01 Monday
data processing 「data science 到底是什麼從一個完全外行角度來看」 data science

[Data Science 到底是什麼從一個完全外行角度來看][13]Data的運用 - 介紹篇

還記得之前提到過，如果Data是原油那麼Data Science就是提煉成石油的技術。

到目前為止，解決了Data的儲存和運算的部分。但是就算可以處理Big Data，該怎麼處理？如何把處理結果變成有意義或者可以動作的策略？

如果說，Big Data的儲存和運算在武俠小說裡面屬於內功的話那麼Data Process Workflow（資料處理流程）就同等於招式一樣。

沒有足夠的內力（Data），招式在精妙也沒有用（就像瞎子摸象，就算摸的技巧再好，也因為局限的關係摸不到全貌，一定會有偏頗）。

反過來說，如果內力深厚，但是不會招式，那麼同等於英雄無用武之地。

在這個系列的接下來將會著重在介紹Data Processing的部分。這篇將會是概觀介紹。

Data Processing Workflow指的是什麼？

中間的Big Data
一切從解決問題開始
Exploratory Analysis階段
Machine Learning (機器學習) 階段
發佈

需要有什麼提前知識？
結語

2017-12-31 Sunday
data processing 「data science 到底是什麼從一個完全外行角度來看」 data science

[Data Science 到底是什麼從一個完全外行角度來看][10]用.Net Core跑Hadoop MapReduce - Streaming介紹

上一篇([09]了解Hadoop裡的MapReduce到底是什麼？)了解了什麼是MapReduce，並且了解了怎麼用Java寫一個MapReduce的Hello World程式：WordCount。

馬上會想到的一個問題是，難道只有Java可以寫MapReduce的程式嗎？

這篇將會介紹Hadoop的Streaming服務，讓任何語言只要透過Standard Input和Standard Output就可以寫出MapReduce程式。將會使用最熟悉的語言，.Net Core來完成這個事情。

在這篇也會介紹另外一種測試Hadoop的方式，使用Docker來測試。

這篇的範例程式碼在github：alantsai/blog-data-science-series 裡面的 src/chapter-10-dotnet-mapreduce

什麼是Hadoop Streaming
實際操作

Mapper開發
Reducer開發
測試結果

結語

2017-12-30 Saturday
docker hadoop 「data science 到底是什麼從一個完全外行角度來看」 data science net-core

[Data Science 到底是什麼從一個完全外行角度來看][11]Hadoop總結(上篇)–Ecosystem介紹

在上一篇([10]用.Net Core跑Hadoop MapReduce - Streaming介紹)透過Hadoop Streaming的幫助，改成用.Net Core 2.0的程式作為MapReduce的邏輯，基本上這個系列裡面的Hadoop介紹也要告一個段落。

這一篇，將會快速回顧到目前為止所了解到關於Hadoop的部分，再來介紹Hadoop Ecosystem，和3個比較常見的package介紹。

溫故知新
Hadoop Ecosystem

HIVE
HBase
Spark

結語

2017-12-30 Saturday
hadoop 「data science 到底是什麼從一個完全外行角度來看」 data science

[Data Science 到底是什麼從一個完全外行角度來看][12]Hadoop總結(下篇) - 一切才剛剛開始

上一篇(11]Hadoop總結(上篇) - 一切才剛剛開始)介紹了Hadoop的Ecosystem之後，了解到有很多package建立在Hadoop上面。

不過一個問題會浮現出來，這門多package，怎麼讓他們互相溝通沒有問題？畢竟版本和版本之間很有可能會有相容性問題。

這就是Hadoop Distribution的作用，一些整理好包成一包的Hadoop Ecosystem，有些distribution還包括一些管理界面讓整個管理變得更加簡單。

Hadoop Distribution

快速總結Distribution的差異
Cloudera's Distribution include Apache Hadoop (CDH)
Hortonworks Data Platform (HDP)
Syncfusion Big Data Platform
Azure HDInsight

一切才剛剛開始 - Data Engineer之路
結語

2017-12-30 Saturday
hadoop 「data science 到底是什麼從一個完全外行角度來看」 data science

[Data Science 到底是什麼從一個完全外行角度來看][09]了解Hadoop裡的MapReduce到底是什麼？

在上一篇([08]Hadoop 改成完全分散模式)透過複製VM的方式建立出了fully-distributed mode，基本上在這個系列裡面對於Hadoop的介紹也快到了一個尾聲。

不過，還有一個部分被忽略了，也就是實際在Hadoop做運算的程式，也是WordCount的實際運算邏輯。

這篇會介紹MapReduce的概念，並且看一下WordCount的java程式是如何撰寫。

什麼是MapReduce
換個方式理解 - 用選舉為例
怎麼在Hadoop寫MapReduce

Map
Reduce
設定

結語

2017-12-27 Wednesday
hadoop 「data science 到底是什麼從一個完全外行角度來看」 data science

[Data Science 到底是什麼從一個完全外行角度來看][08]Hadoop 改成完全分散模式

在上一篇([07]更深入看看Hadoop裡面的YARN和HDFS)了解了整個jps的process代表的意思之後，在這篇將會延續之前([05]建立Hadoop環境 -上篇、[06]建立Hadoop環境 -下篇)建立出來pseudo-distributed mode的hadoop改成 fully-distributed mode

這篇結束之後，除了Master，會建立出一台slave。由於Master裡面也有DataNode和NodeManager，所以總共會有2個DataNode。

建立步奏
修改原本的VM變成Master機器
從Master建立Slave
最後設定
重新Format指令
啟動和驗證
執行WordCount
結語

2017-12-26 Tuesday
hadoop 「data science 到底是什麼從一個完全外行角度來看」 data science

[Data Science 到底是什麼從一個完全外行角度來看][07]更深入看看Hadoop裡面的YARN和HDFS

在上一篇（[06]建立Hadoop環境 -下篇）把hadoop pseudo-distributed mode整個建立了起來，在這個過程中有透過 jps看到啟動的時候有5個process：

NameNode
SecondaryNameNode
ResourceManager
NodeManager
DataNode

這些process分別是yarn和HDFS執行起來的process，其中Master會有前 3個而slave有後 2個

這篇將會對於這幾個問題做一些介紹。

這篇提到的架構屬於Hadoop 2.x 版本的內容，Hadoop 3 之後有所變動。

Hadoop Cluster架構
JobTracker和TaskTracker

YARN - ResourceManager
localhost:8088

NameNode、DataNode和Secondary NameNode

Secondary NameNode呢？
localhost:50070

結語

2017-12-25 Monday
hadoop devops 「data science 到底是什麼從一個完全外行角度來看」

[Data Science 到底是什麼從一個完全外行角度來看][06]建立Hadoop環境 -下篇

上一篇（[05]建立Hadoop環境 -上篇）透過VMWare Player把Ubuntu裝好並且一些相關環境設定到，等於把hadoop的基礎環境建立好了。

這篇將延續上篇的環境，把Hadoop建立上去，並且讓Hadoop跑一個hello world的範例。

環境準備
建立Hadoop測試環境

安裝和設定Hadoop
測試Hadoop

執行Hadoop的Hello World - WordCount
結語

2017-12-24 Sunday
hadoop 「data science 到底是什麼從一個完全外行角度來看」 data science

[Data Science 到底是什麼從一個完全外行角度來看][05]建立Hadoop環境 -上篇

上一篇（[04]Hadoop是什麼？）以一個非常高的overview看了Hadoop是什麼，在接下來將會把理論轉成實際操作，將建立一個Ubuntu 的 VM上面架設hadoop並且跑一個MapReduce的hello world程式，WordCount（算字數）。

等到跑完範例之後，將會在深入一點看hadoop的MapReduce和HDFS運作模式。

首先，從建立環境開始。

環境準備
建立Hadoop測試環境

安裝Ubuntu VM
設定Ubuntu環境

結語

2017-12-23 Saturday
hadoop 「data science 到底是什麼從一個完全外行角度來看」 data science

[Data Science 到底是什麼從一個完全外行角度來看][04]Hadoop是什麼？

在上一篇（[03]Big Data到底是有多Big？）了解到了Big Data的3個V，也就是量、增長速度和多元格式的挑戰，這篇來看看讓管理一切變得有可能的軟體：Hadoop。

這篇將介紹Hadoop的由來，為什麼這麼重要，不同版本之間的差異，和基本架構。

Hadoop的歷史
Hadoop的特色
Hadoop的版本

0.x 和 1.x 版本
2.x版本
3.x版本

結語

2017-12-22 Friday
hadoop 「data science 到底是什麼從一個完全外行角度來看」 data science

[Data Science 到底是什麼從一個完全外行角度來看][03]Big Data到底是有多Big？

在上一篇([02]Data Science 是什麼？)了解了整個Data Science包含的內容，這篇將會看看源頭，Data本身。

這篇先了解到什麼是Big Data？有什麼特性？到底是有多Big？

什麼是Big Data
3V 之 Volume - 量
3V 之 Velocity - 增長速度
3V 只 Variety - 資料的多元性
Big Data帶來的挑戰
結語

2017-12-21 Thursday
「data science 到底是什麼從一個完全外行角度來看」 data science

[Data Science 到底是什麼從一個完全外行角度來看][02]Data Science 是什麼？

如果說資料（data）和石油一樣是最有價值的資源，那麼Data Science就同等於從原油提煉出石油的技術。

上篇([01]開篇)了解了整個系列的內容之後，這篇來了解一下 Data Science 到底是什麼？需要什麼技能/技術？和到底怎麼把data提煉出來變成可以用來做使用的資訊（變成石油）。

Data為什麼可以變成和石油一樣有價值的資源？

以孫子兵法為例

Data Science 為什麼會夯起來？
推動Data Science的幾個技術？
Data Science 需要有哪方面的知識？
Data Scientist 的日常工作
結語

2017-12-20 Wednesday
「data science 到底是什麼從一個完全外行角度來看」 data science

[Data Science 到底是什麼從一個完全外行角度來看][01]開篇

又到了新的一屆鐵人賽，這次和之前不一樣的是，多了團隊模式。然後，不知不覺就組成了一個團隊.... 失敗的話應該會永遠被釘死吧。

所以，為了不被釘死，要好好努力來寫啦，已經被警告，別像去年那樣，待補，結果和卡債一樣，永遠翻不了生（雖然到目前為止還在努力的補當中）。

那今年的主題是什麼呢？不是新的程式環境（OS: .Net core哪去了？)，不是延伸去年內容打造更完整的建制環境（OS: 整合docker的DevOps哪去了？），而是一個完全不熟悉的領域，Data Science（資料科學）。（如果你是工程師，那麼別錯過 1/6 在台大的 Study4.TW Study4Love - 與大師對談）

今年的題目是：Data Science 到底是什麼 - 從一個完全外行角度來看

為什麼想寫這個主題？
這個系列的主要程度和內容？
需要準備什麼環境？
結語

同步發佈於第九屆 2018iT 邦幫忙鐵人賽：https://ithelp.ithome.com.tw/articles/10192297

2017-12-19 Tuesday
「data science 到底是什麼從一個完全外行角度來看」 data science

「data science 到底是什麼從一個完全外行角度來看」

[Data Science 到底是什麼從一個完全外行角度來看][18]R語言基礎中篇 - 1維度資料結構介紹

[Data Science 到底是什麼從一個完全外行角度來看][17]R語言基礎上篇 - 語言特性和資料形態

[Data Science 到底是什麼從一個完全外行角度來看][15]R是什麼？準備開發R的環境 - RStudio介紹

[Data Science 到底是什麼從一個完全外行角度來看][16]用R來看股票，透過quantmod了解R的強大

[Data Science 到底是什麼從一個完全外行角度來看][14]如何問對的問題？

[Data Science 到底是什麼從一個完全外行角度來看][13]Data的運用 - 介紹篇

[Data Science 到底是什麼從一個完全外行角度來看][10]用.Net Core跑Hadoop MapReduce - Streaming介紹

[Data Science 到底是什麼從一個完全外行角度來看][11]Hadoop總結(上篇)–Ecosystem介紹

[Data Science 到底是什麼從一個完全外行角度來看][12]Hadoop總結(下篇) - 一切才剛剛開始

[Data Science 到底是什麼從一個完全外行角度來看][09]了解Hadoop裡的MapReduce到底是什麼？

[Data Science 到底是什麼從一個完全外行角度來看][08]Hadoop 改成完全分散模式

[Data Science 到底是什麼從一個完全外行角度來看][07]更深入看看Hadoop裡面的YARN和HDFS

[Data Science 到底是什麼從一個完全外行角度來看][06]建立Hadoop環境 -下篇

[Data Science 到底是什麼從一個完全外行角度來看][05]建立Hadoop環境 -上篇

[Data Science 到底是什麼從一個完全外行角度來看][04]Hadoop是什麼？

[Data Science 到底是什麼從一個完全外行角度來看][03]Big Data到底是有多Big？

[Data Science 到底是什麼從一個完全外行角度來看][02]Data Science 是什麼？

[Data Science 到底是什麼從一個完全外行角度來看][01]開篇

訂閲

搜索

Facebook

線上課程

Tags

好站連結

證照/獲獎

證照 - 較舊或過期

工商服務

[Data Science 到底是什麼從一個完全外行角度來看][18]R語言基礎 中篇 - 1維度資料結構介紹

[Data Science 到底是什麼從一個完全外行角度來看][17]R語言基礎 上篇 - 語言特性和資料形態

[Data Science 到底是什麼從一個完全外行角度來看][15]R是什麼？準備開發R的環境 - RStudio介紹

[Data Science 到底是什麼從一個完全外行角度來看][16]用R來看股票，透過quantmod了解R的強大

[Data Science 到底是什麼從一個完全外行角度來看][14]如何問對的問題？

[Data Science 到底是什麼從一個完全外行角度來看][13]Data的運用 - 介紹篇

[Data Science 到底是什麼從一個完全外行角度來看][10]用.Net Core跑Hadoop MapReduce - Streaming介紹

[Data Science 到底是什麼從一個完全外行角度來看][11]Hadoop總結(上篇)–Ecosystem介紹

[Data Science 到底是什麼從一個完全外行角度來看][12]Hadoop總結(下篇) - 一切才剛剛開始

[Data Science 到底是什麼從一個完全外行角度來看][09]了解Hadoop裡的MapReduce到底是什麼？

[Data Science 到底是什麼從一個完全外行角度來看][08]Hadoop 改成完全分散模式

[Data Science 到底是什麼從一個完全外行角度來看][07]更深入看看Hadoop裡面的YARN和HDFS

[Data Science 到底是什麼從一個完全外行角度來看][06]建立Hadoop環境 -下篇

[Data Science 到底是什麼從一個完全外行角度來看][05]建立Hadoop環境 -上篇

[Data Science 到底是什麼從一個完全外行角度來看][04]Hadoop是什麼？

[Data Science 到底是什麼從一個完全外行角度來看][03]Big Data到底是有多Big？

[Data Science 到底是什麼從一個完全外行角度來看][02]Data Science 是什麼？

[Data Science 到底是什麼從一個完全外行角度來看][01]開篇

訂閲

搜索

Facebook

線上課程

Tags

好站連結

證照/獲獎

證照 - 較舊或過期

工商服務

[Data Science 到底是什麼從一個完全外行角度來看][18]R語言基礎中篇 - 1維度資料結構介紹

[Data Science 到底是什麼從一個完全外行角度來看][17]R語言基礎上篇 - 語言特性和資料形態