2013年5月30日 星期四

【雲端時代的殺手級應用:Big Data海量資料分析】讀後感

一、海量資料新世界

1.海量資料的 3i 新世界:

(1)感知化:指資料來源的變化。

(2)物聯化:指資料傳送方式的變化。

(3)智能化:指資料使用方式的變化。




二、不只是大而已

1.巨量性(Volume):存放中的資料(Data at Rest)數TB~EB之已存在、待處理的資料。

2.即時性(Velocity):流動中的資料(Data in Motion)串流資料,反應時間僅有短短幾秒~百萬分之一秒。

3.多樣性(Variety):種類繁雜的資料(Data in Many Forms)結構、非結構、純文字、多媒體資料等。

4.不確定性(Veracity):不確定的資料(Data in Doubt)因資料不完整、不一致、時間差、意義不明、蓄意欺騙而導致之不確定性。




三、破壞式的全新競爭力

1.過去進行資料分析時,IT人員是以程式為核心,把散落在外面的資料,放到儲存系統的結構裡,然後拿進記憶體,交由電腦程式運算,所以資料得經由提取、處理、分析,最後等上一段時間才能得到結果。

而海量分析的概念則是以資料當作核心,外面放了許多的程式和硬體,依據不同的需要對應不同的處理程式,產出個人化、以毫秒為單位,並可隨著時間推移的即時分析結果




四、零售:更好、更快、更便宜

1.內容分析軟體的基礎架構:

(1)層面分析(Facet analysis):列出包括經過頻率、相關性和名稱等條件挑選的關鍵字。

(2)時間序列分析(Time-series analysis):獲取特定資料在指定時間內發生率的變化。

(3)趨勢分析(Trend analysis):自動偵測關鍵字在一個時間序列內頻率的顯著增加或減少。

(4)偏差分析(Deviation analysis):比較和自動檢測關鍵字在同一層面、同一時間範圍內,頻率的顯著增加或減少。

(5)雙層分析(Facet pair analysis):自動偵測兩個任意的層面關鍵字之間的關聯性。

(6)連接分析(Connection analysis):將同一網路上、兩個不同層面的關聯性視覺化。

(7)企業儀錶板(Dashboard):顯示多個分析圖表在同一個螢幕上。




五、海量分析的技術要件

1.海量分析平台六要件:

(1)資料倉儲技術(處理Volume:「大」)

(2)Hadoop(處理Variety:「雜」)

(3)江河運算(處理Velocity:「快」)

(4)資料治理(處理Veracity:「疑」)

(5)文本分析

(6)視覺化和搜尋介面

沒有留言:

張貼留言