2018年1月3日 星期三

[Data Science 到底是什麼從一個完全外行角度來看][15]R是什麼?準備開發R的環境 - RStudio介紹

image
圖片來源: https://pixabay.com/en/books-spine-colors-pastel-1099067/https://pixabay.com/en/math-blackboard-education-classroom-1547018/

在上一篇([14]如何問對的問題?)了解到了如何定義一個問題,那麼下一個步奏就是收集然後分析Data以解決定義的問題。

收集Data有很多方式,不過一般來說收集到的Data都需要經過一些處理才有辦法使用。

有什麼麼能處理這些Data?這篇將會對於幾種不同處理Data的方式做些介紹,並且為什麼選擇R和如何準備接下來會用到的環境,RStudio。

分析Data的工具/語言

基本上,要分析Data有兩種方式:

  1. 使用軟體
  2. 使用程式語言

使用軟體

最常見的軟體就是Microsoft Office的Excel。可以把Data喂進去,然後透過裡面一些定義好的方法能夠產生出非常漂亮的圖表或者分析表。

其他常見的還有像是tableau其實都是這種類型。

這些軟體因為有GUI所以好上手, 不過這種類型有個比較大的問題,那就是不好確保重複做會是一樣的動作

舉例來說,如果定期會收到某些格式的資料,但是這些資料都需要經過處理才有辦法做下一步的分析,請問什麼方式才能夠確保每一次的處理動作都會一樣?在這種軟體類型其實並不容易,或者說如果要做到就需要寫一些比較不好維護的script,例如VBScript。

其實GUI類型的工具都沒有辦法很容易做到自動化或者確保重複操作會一致

使用程式語言

既然GUI在處理重複性上面比較沒辦法做到,那下一個會看的就是程式語言。

在Data Science的領域裡面,有幾個語言比較流行(其實有很多,用什麼都可以):

  1. Python
  2. Scala
  3. R

Python屬於General Purpose Language,所以本來沒有特別傾向做什麼都可以。不過因為有很大的community都用python,導致了很多package做data science非常方便。

Scala夯起來主要是因為Spark是用Scala寫的,因此用Scala在處理Big Data在速度上面會比R和Python來的好,因此用的很多。

那R的特色呢?為什麼選擇R而不是另外兩個呢?其實不管選什麼都沒關係,重點是好不好用。所以如果已經有習慣用什麼,那就用那個。

R的歷史

image
R Logo

了解一個語言的歷史對於整個語言的定位和特色有幫助,因此先來看看R是怎麼誕生。

R其實不是一個新的語言,它誕生至今已經有24年(從1993),而它是從S演進而來,而S當初是為了給統計學家對Fortran的SCS Library開發提供便利。

因此在R的血液裡面,主要是給統計學家用的Specialized Language

R怎麼突然紅起來呢?個人認為主要是Big Data的興起,和另外兩個重要的推手:

Revolution R
在2007出現 提供commercial support的R,能夠分散運算和處理大量資料後來被Microsoft買走
RStudio
在2011出現,Open Source的R Integrated Development Environment(IDE)。讓開發R變得非常方便,並且一直持續有開發一些讓R開發更加方便的功能,像是Shiny,讓用寫R的方式建立一個互動式網站
image
R的歷史
題外話,任何一個火紅的軟體/語言都需要有個重大推手,像git其實2005年就誕生了,但是整個火紅起來是因為2011誕生的Github。

從整個歷史會發現:

  1. R歷史悠久 - 換句話說很多人在用代表很多package(第三方套件) - 而且大部分都是免費。
  2. R是專門給統計學家用的語言 - 換句話說在處理資料、視覺化非常簡單
因此,接下來會用R來入門。

安裝R

R小檔案

R官網
https://www.r-project.org/
最新版本
3.4.3
檔案大小
Windows約62MB
R Windows 3.4.3 直接下載
台大Mirror
R Mac
台大Mirror
R Linux
台大Mirror

基本上,下載下來之後,一直下一步即可。

最後裝好之後在桌面會有一個R的icon,執行了之後會是一個command line的界面。

image
執行起來的畫面

RStudio介紹和安裝

image
RStudio logo

RStudio小檔案

最新版本
1.1.383
檔案大小
Windows約85.8MB
下載頁面
https://www.rstudio.com/products/rstudio/download/#download
Windows直接下載鏈接
RStudio 1.1.383 - Windows Vista/7/8/10

command line其實就夠了,但是如果用過IDE就知道IDE開發的速度上面差異。

因此,這邊也會裝Open Source的R IDE,RStudio。

安裝也很簡單只需要,下一步,下一步就好了,只是要注意,RStudio 並不包含 R,所以兩個要分開安裝。

安裝好了之後,在桌面不會出現,要從Windows的「開始」裡面找。

RStudio 快速介紹

主要界面

執行起來會看到畫面分了四個部分:

  1. 寫Script的地方 - 寫在這邊之後可以把整個script保存下來
  2. Console - 同等於R的Command LIne。因此Script內容就是執行在這邊
  3. 環境參數 - 以我這個例子,可以看到參數x的值
  4. 其他畫面 - 例如安裝package,繪圖的結果,檔案總管都在這邊

這邊還要注意一下箭頭的部分,如果需要縮起來(例如不需要console直接寫在script),可以按那個放大的icon,旁邊則是縮小。 所以如果沒有看到畫面注意是不是縮小了

image
R主要界面

幾個設定

設定的地方在Tools > Global Options

image
開啟設定畫面

這邊提一下兩個設定:

  1. 字體和樣式
  2. 預設的script儲存編碼改為utf-8

字體和樣式

一般來說要先調整一下字體和樣式以符合需求:

  1. 切換到 Appearance
  2. 可以改font
  3. 可以改字體大小
  4. 可以改整個的theme
image
調整樣式

預設的script儲存編碼改為utf-8

這個是避免script存檔的時候如果有中文可能會亂碼的問題。

  1. 切換到 Code
  2. 切換到Saving頁簽
  3. 選擇 Change...
  4. Default Setting 改成 Utf-8
  5. 按下OK
image
設定RStudio的預設字集

其他R IDE - Visual Studio

R Tools for Visual Studio

支援的VS版本
2015和2017
首頁
https://www.visualstudio.com/zh-hant/vs/rtvs/
VS 2017直接下載
Community版本

R本身只是Script,所以任何自己喜歡的編輯器都可以,基本上所有編輯器都會支援R(這邊指的是例如syntax highlight等)

這邊舉得例子是Visual Studio。

Visual Studio有個 R Tools for Visual Studio,可以用Visual Studio來開發R,基本上RStudio的功能都有,然後在熟悉的界面(如果你用VS的話)

基本上安裝和一般VS安裝畫面差不多,裝完了之後會多出:

  • R Tools的選項
  • R project template

可以直接在R Tools > Windows > R Interactive直接開啟Console。

結語

在這篇快速介紹了兩種不同分析Data的方式:軟體和程式語言。

再來介紹了一些比較流行的語言和R的介紹。

最後安裝了R、RStudio和R Tool For Visual Studio。

準備好了之後,在下一篇([16]用R來看股票,透過quantmod了解R的強大)來跑個人認為R的Hello World程式,用quantmod看股票。透過這個快速demo能夠了解R在資料分析和資料視覺有多麼方便。


沒有留言 :

張貼留言