Alan Tsai 的學習筆記


學而不思則罔,思而不學則殆,不思不學則“網貸” 為現任微軟最有價值專家 (MVP)、微軟認證講師 (MCT) 、Blogger、Youtuber:記錄軟體開發的點點滴滴 著重於微軟技術、C#、ASP .NET、Azure、DevOps、Docker、AI、Chatbot、Data Science

[Data Science 到底是什麼從一個完全外行角度來看][03]Big Data到底是有多Big?

image
圖片來源:https://pixabay.com/en/books-spine-colors-pastel-1099067/ 和 https://pixabay.com/en/math-blackboard-education-classroom-1547018/

在上一篇([02]Data Science 是什麼?)了解了整個Data Science包含的內容,這篇將會看看源頭,Data本身。

這篇先了解到什麼是Big Data?有什麼特性?到底是有多Big?

什麼是Big Data

目前階段在介紹整個Data Scientist日常的中心,Big Data

image
Big Data的處理

Big Data 在台灣翻譯成為 巨量資料,但是因為中國那邊反而實際用的比較多,因此大數據反而是比較耳熟能詳的詞。

Big Data其實是個相對詞,對於我們來說是「Big」Data,可能兩年後只是幾天的量而已,事實上,從數據產生出到2003年的資料綜合 = 我們2天的產生量而已;

IDC更研究指出,現今90%的資料,都是這2年產生出來。

這個資料量非常的恐怖,更別說我們還沒完全進入全IoT(Internet Of Things 物聯網)時代,如果到了那個時候估計光每一秒說不定都是現在1天的綜合(這個是個人亂猜,不過估計不久將來應該很快會發生)。

所以Big Data是一個相對詞,不過當描述Big Data的時候,一般來說會有3個特性,因為都是英文字母V開頭,因此也稱為3V:

  1. Volume
  2. Velocity
  3. Variety
Big Data - What is Big Data - 3 Vs of Big Data - Volume, Velocity and Variety - Day 2 of 21 3vs
3V的含義,資料來源:https://blog.sqlauthority.com/2013/10/02/big-data-what-is-big-data-3-vs-of-big-data-volume-velocity-and-variety-day-2-of-21/

3V 之 Volume - 量

Big Data的其中一個特性就是量很大,因此3V裡面的Volume指的就是產生的量。

既然提到量,那麼就要提到儲存量的單位:

image
換句話說,1 ZB = 10^21 Byte。來源:https://en.wikipedia.org/wiki/Zettabyte

了解了單位,來看看每天產生的量:

image
可以看到光2002年的每秒產量就和1992年的每天一樣,來源:http://www.vcloudnews.com/every-day-big-data-statistics-2-5-quintillion-bytes-of-data-created-daily/

這個量非常恐怖,那麼,如果我們說Big Data到底在說什麼等級呢?

基本上,當國外在說Big Data分析的時候,一般來說講的都是PB等級。

大家可以想象一下,要能夠儲存PB並且做運算的電腦要多高級?

3V 之 Velocity - 增長速度

Velocity指的是量的增長速度。從本來批次的增加,到最後的及時增加。

image
可以看到,每分鐘會有72小時影片上傳到Youtube:來源:http://www.vcloudnews.com/every-day-big-data-statistics-2-5-quintillion-bytes-of-data-created-daily/

當IoT完全進入的時候,資料增長一定會是Real Time。

3V 只 Variety - 資料的多元性

資料不再是像關聯性資料庫這種結構性資料(Structure Data),其他非結構性(Unstructure Data)資料 - 例如影片,相片等等。

這種不同類型的資料讓處理起來也變得更加複雜。

Big Data帶來的挑戰

可以看到,Big Data不僅代表資料量很大,增長速度很快並且資料結構非常多元,那這些資料到底如何儲存和運算呢?

把硬體一直加大(Scale Up)所損耗的錢是倍數成長,因此更好的情況是平行擴展(Scale out)的方式。因此Hadoop的誕生讓一切變得有可能。

Hadoop做到讓一般性電腦能夠透過連在一起的方式達到儲存大量資料,並且平行運算。舉例來說,如果我要儲存1TB的資料,但是我沒有TB硬碟,那麼可以透過2個500GB的硬碟把那1TB的資料儲存在Hadoop的HDFS。

因此Hadoop把處理Big Data變得可行。

結語

在這篇介紹了Big Data的基本特性,和所謂的3V。

了解了Big Data的狀況之後,會發現到面臨的挑戰是,要儲存和計算這麼大量的資料靠一台超級電腦根本不可能,因此Hadoop的誕生導致了使用Big Data變得可能。

在下一篇([04]Hadoop是什麼?),將會介紹讓Big Data處理變得可能,Hadoop。


如果文章對您有幫助,就請我喝杯飲料吧
街口支付QR Code
街口支付QR Code
台灣 Pay QR Code
台灣 Pay QR Code
Line Pay 一卡通 QR Code
Line Pay 一卡通 QR Code
街口支付QR Code
支付寶QR Code
街口支付QR Code
微信支付QR Code
comments powered by Disqus