免費程式:Microsoft Power Query for Excel,學習導入資料_Open Data_大數據分析入門

免費程式:Microsoft Power Query for Excel,學習導入資料_Open Data_大數據分析入門

Social Media Insights
Social Media Insights_社群媒介洞察

大數據分析,【資料】幾乎決定成敗。常見的做法是透過網路抓取,包括結構與非結構等各類型的資料。然而,初學大數據,特別是沒有足夠能力在網路上擷取資料者,經常苦於【資料】從何而來?抑或是【資料】可不可靠?代表性夠不夠等問題。

此時,尋找完備的資料庫,例如政府、學術研究機構成立的大型資料庫,透過資料庫分析,或許能避開網路資料擷取的技術門檻,亦可省去資料蒐集的時間,以及遭遇蒐集對象之API更動頻繁,導致資料擷取失敗的風險。

在政府施政透明化、資料開放的呼籲聲中,官方與民間的共同努力下,國家發展委員會所設立的【政府資料開放平台】,為我國Open Data開啟良好的環境與介面。而對於大數據的學習者而言,不啻提供了兼具多元類型與內容的龐大資料庫,以及資料分析絕佳的練習對象。

在【資料集清單】當中,點進連結後發現:這些政府開放資料絕大部分是屬於原始檔案,涵蓋JSON (JavaScript Object Notation)CSV (逗號分隔值)XML (可延伸標記式語言)等檔案格式。這些格式的共同點是:輕量與網頁製作有密切關係;但不一定與現行的統計、辦公、文字處理等套裝軟體相容。也就是說,這些Open Data雖然取得容易,但是在進行統計分析之前,仍無法避免龐雜的資料轉換與清整過程。

Microsoft(微軟)在商務分析這塊領域的耕耘,一直是不遺餘力且常有令人驚豔的表現。早在2012年左右,Microsoft雲端實驗室就已經推出過Data Explorer (資料存取增益集),可外掛在Office之下的Excel進行作業,並且與既存的Power Pivot(資料分析增益集)、Power View(資料展示增益集)共同運作。目前,Data Explorer已經更名為Power Query,可讓使用者探索、合併與清整各類型的結構與非結構性資料,使得Excel具備成為商務分析在資料存取、分析、展示的強大鐵三角功能。

最重要的:Power Query完全免費!目前支援的版本為Excel 2010、2013,而2013的版本更是將其列於內建功能。

請點選連結下載:Microsoft Power Query for Excel

我以【政府資料開放平台】當中的【擁抱田園風光-農村旅遊資訊】這筆開放資料為例,資料類型為JSON格式;打開後,感覺還真的是所謂的【原始資料】:

Json檔案

如左圖,JSON格式的檔案,彷彿雜亂無章,也無法直接套用在Excel當中運用;若強以Excel的資料剖析功能來進行人工切割,也會面臨無法以固定寬度或符號來劃分欄位的問題。

此時就是運用Power Query強大資料擷取與清整能力的時候了。至Microsoft官網安裝好Power Query以後,打開Excel會發現功能選單多出了Power Query的選項:

Power Query主頁面

右圖是Excel 2010執行Power Query的介面,2013的版本畫面則略有不同,選項也稍有差異,不過並不影響主要的資料擷取與清整功能。

如前述,使用者若需要將JSON格式的原始資料檔案,順利載入並轉換為Excel格式檔案,以利後續分析運用,以下區分幾個重要的步驟:

一、導入資料:

Power Query提供多種資料導入的方式,使用者可以點選第一個功能選單【從Web】,待【輸入網頁URL】的對話框出現後,再輸入資料所在的網址;或從第二個功能選單【從檔案】亦可。以前述資料為例,JSON格式資料預設是以文字檔方式開啟,因此使用者可點選【從檔案】→【從文字】,待檔案位置輸入對話框出現後,再將資料的網址直接輸入空格,按確定後即可直接抓取資料。

 從文字_JSON貼上資料網址

二、資料編輯:

(一)依據資料大小,等候時間不一。待資料完全導入後,畫面將出現【導覽器】。

(二)點選【導覽器】當中出現的資料網址,再按下右下角的【編輯】。

(三)【查詢編輯器】視窗出現,請注意:此時JSON格式檔案,在【查詢編輯器】當中,仍是以Html的格式出現。因此,還需要點選【來源】,進行下一個步驟的資料轉換。

點選資料網址後按編輯查詢編輯器_點選來源

(四)點選【來源】後,出現【輸入網頁URL】的對話框,點選【開啟檔案方式】下拉選單,點選【JSON】,按【確定】。

(五)點選左上角【成為資料表】,待【成為資料表】對話框出現後,按【確定】,即轉換成功(從List轉換為Column)。

點選來源_JSON點選成為資料表成為資料表後按確定已轉換為資料表

三、資料展開:

(一)點選column1旁的小圖示,出現展開欄位的對話框(預設所有選項都會打勾),直接按【確定】,表格將會展開。

(二)表格欄位展開後,點選右上角【關閉並載入】,原JSON格式資料將直接載入Excel表格,大功告成!至此,這筆資料就任您宰割了!

點選展開資料圖形按確定資料表展開

按關閉後載入_大功告成

Power Query是一個資料擷取、轉換與清整功能強大的免費工具,且充分與Excel的介面整合,非常適合大數據學習者進行資料擷取與清整工作。附帶一提:Power Query亦可運用於網頁資料擷取與轉換,包括社群媒介,諸如時下流行的Facebook頁面資料,限於篇幅,將在後篇繼續與大家分享。

#Power Query #Office #Excel #Open Data #Microsoft #freeware #big data #JSON #CSV #微軟 #大數據 #開放資料 #政府開放資料 #商務分析

發表留言

這個網站採用 Akismet 服務減少垃圾留言。進一步了解 Akismet 如何處理網站訪客的留言資料