池中之物 vs. 七海蛟龍:大數據(Big Data)不只【大】,更要【活】

池中之物 vs. 七海蛟龍:大數據(Big Data)不只【大】,更要【活】

Social Media Insights
社群媒介洞察__Social Media Insights

很難得的機會,在炎熱的午後,與昔日老師和一群學術菁英們,聆聽【學術志業】與【大數據】兩個主題。

【學術】這回事,依據我的信念:是無私奉獻與分享。人類的文明與進步,也是基於這種【利他】精神,才能不斷往前走。至於是否利用學術謀生餬口,這就涉及個人價值觀,不置可否,不便評論。

【大數據】無所不在,從Google、Yahoo、Twitter、Facebook到阿里巴巴、鴻海…

過幾天,可能你家巷口早餐店老闆,也會暢談他的【大數據】心得……

哦!不要笑,這真的已經發生過了。

我在前文【大數據(Big Data)的我見我思與反思】當中,

描述的重點,是希望強調大數據的【延續】(Continuity)特性。

君不見當下各大型企業體、學術機構,甚至電商,近來不斷地投入龐大資金,

建構所謂大數據、巨量(海量)資料研究中心,試圖擴大版圖,激化市場。

例如鴻海,耗資逾十億在中國大陸貴州設立【鴻海貴州綠色隧道數據中心】,

垂涎的利基在於:我們能不能除了把【資料】變成有價值的【資產】?還可永續掌握資料的【來源】?

這個【來源】的概念,包括【延續】(Continuity)與【活力】(Vitality)兩個意涵;

活力】代表資料是活的,不是死的、靜止的、封閉的。

基本上,大數據的相關工作,其實也可以粗略區分三大階段:

一是【導入】(Import),二是【分析】(Analysis),三是【解釋】(Explanation)。

在還沒有【大數據】名詞出現以前,計量分析若無法進行普測(查),最好的方法就是抽樣,

以適合的樣本分析結果,來推估母群體的參數、結構、分布情形。

因此,統計學及其相關應用知識與技能,便主導了計量分析成果的優劣成敗。

過去以推論統計知識領銜的計量分析方法,對於當前的大數據處理,適合嗎?

答案當然是肯定的!

處理大數據,必定要用上統計學、資料學、資訊科技等專業知識和技能;

但是,有兩個問題無法迴避:

第一、這些巨量資料的分布,是否仍如統計教科書所云:呈現【吊鐘形】的常態分配(假設)

第二、僅一次性擷取分析【巨量】資料,結果就能斷定為真?甚至因果關係

於此,我更想強調的是:【大數據】應該是一種【視域】。

平心而論,大數據不算甚麼新玩意兒,也不像【神奇海螺】般有問必答;

它算是人們面對又大又活,千變萬化的資料,一種在方法論層面的視域。

舉例而言:各類型的開放資料,讓有志於大數據分析的學習者,有了很好的操練對象,

可如果它僅是【一筆】資料,就算把它玩得出神入化,

把教科書所有的統計方法全部給做過一遍,拒絕了千百個虛無假設,

就像池塘釣魚,釣上來的,永遠只是【池中之物】

若想捕獲【七海蛟龍】,那得到大海裡去找

統計是可以解決後端分析的問題;倘若想要常保大數據來源的【延續】與【活力】,

勢必要設法【導入】源源不絕的資料;這資料也許大到可怕,大到足以排除不確定性。

在過去,可能是有甚麼資料,做甚麼分析;而現在,應該是【做甚麼分析,找甚麼資料】。

另外,也包括必須具備可在茫茫資料大海當中,慧眼識珠般的【資料洞察力】,

那麼,透過有價值的資料,找到寶藏的機率,才會大增;

否則,就只是GIGO(Garbage-In-Garbage-Out)而已了。

學習如何【導入】資料,讓資料充滿【活力】與【價值】,重要性比起【分析】資料,

毫不遜色

#大數據 #統計分析 #搜尋引擎 #big data #data analysis #facebook #google #yahoo #search engines

廣告

發表迴響

在下方填入你的資料或按右方圖示以社群網站登入:

WordPress.com 標誌

您的留言將使用 WordPress.com 帳號。 登出 /  變更 )

Google+ photo

您的留言將使用 Google+ 帳號。 登出 /  變更 )

Twitter picture

您的留言將使用 Twitter 帳號。 登出 /  變更 )

Facebook照片

您的留言將使用 Facebook 帳號。 登出 /  變更 )

連結到 %s