data processing


[Data Science 到底是什麼從一個完全外行角度來看][15]R是什麼?準備開發R的環境 - RStudio介紹

image
圖片來源: https://pixabay.com/en/books-spine-colors-pastel-1099067/https://pixabay.com/en/math-blackboard-education-classroom-1547018/

在上一篇([14]如何問對的問題?)了解到了如何定義一個問題,那麼下一個步奏就是收集然後分析Data以解決定義的問題。

收集Data有很多方式,不過一般來說收集到的Data都需要經過一些處理才有辦法使用。

有什麼麼能處理這些Data?這篇將會對於幾種不同處理Data的方式做些介紹,並且為什麼選擇R和如何準備接下來會用到的環境,RStudio。


[Data Science 到底是什麼從一個完全外行角度來看][16]用R來看股票,透過quantmod了解R的強大

image
圖片來源: https://pixabay.com/en/books-spine-colors-pastel-1099067/https://pixabay.com/en/math-blackboard-education-classroom-1547018/

在上篇([15]R是什麼?準備開發R的環境 - RStudio介紹)了解了R的歷史和準備好了接下來的開發環境之後,就可以開始用R來做分析了。

一般來說,在學新的語言都會先看看所謂的Hello World,了解整個語言的Syntax和感覺。

不過R不是一般型的程式語言,是給統計學家用的語言。因此,個人覺得如果只是看Hello World好像看不出來R特別的地方,不過如果直接學語法又太無聊。

因此,這邊透過安裝和使用quantmod這個套件,並且用它來簡單分析股票作為R的入門介紹。


[Data Science 到底是什麼從一個完全外行角度來看][14]如何問對的問題?

image
圖片來源: https://pixabay.com/en/books-spine-colors-pastel-1099067/https://pixabay.com/en/math-blackboard-education-classroom-1547018/

在上一篇([13]Data的運用 - 介紹篇)了解了整個Data Process Workflow會經過的每個步奏,並且了解到越前面的越重要

因此這篇將會從最重要的部分開始,怎麼定義一個好的問題?


[Data Science 到底是什麼從一個完全外行角度來看][13]Data的運用 - 介紹篇

image
圖片來源: https://pixabay.com/en/books-spine-colors-pastel-1099067/https://pixabay.com/en/math-blackboard-education-classroom-1547018/

還記得之前提到過,如果Data是原油那麼Data Science就是提煉成石油的技術

到目前為止,解決了Data的儲存和運算的部分。但是就算可以處理Big Data,該怎麼處理?如何把處理結果變成有意義或者可以動作的策略

如果說,Big Data的儲存和運算在武俠小說裡面屬於內功的話那麼Data Process Workflow(資料處理流程)就同等於招式一樣。

沒有足夠的內力(Data),招式在精妙也沒有用(就像瞎子摸象,就算摸的技巧再好,也因為局限的關係摸不到全貌,一定會有偏頗)。

反過來說,如果內力深厚,但是不會招式,那麼同等於英雄無用武之地。

在這個系列的接下來將會著重在介紹Data Processing的部分。這篇將會是概觀介紹。