cover

手上有一堆資料,但對於內容卻毫無頭緒嗎?前陣子 Databasic 正式上線,一口氣推出了三個有趣的資料探索工具,主打資料科學初心者,到底這個 DataBasic 葫蘆裡賣了什麼藥,就讓我們一起來看看!

在為期 6 個月的開發後,2016 年 1 月 12 日 DataBasic 宣布正式上線,提供了三個有趣的工具給資料科學初心者使用,包括了:

  • SameDiff – 比較兩個文章,提供兩者使用文字差異以及相似度的資訊
  • WtfCSV – 提供資料的摘要資訊,包含簡單的統計與視覺化
  • WordCounter – 計算文章內各個字的字量以及產生簡單的文字雲

DataBasic 由 MIT 以及 Emerson College 的兩位公民媒體領域背景的教授所創辦,由 Knight Prototype Fundation 資助其早期 Prototyping 開發 ( 35k 美金 ) ,很明顯的可以說就是懷抱了一個願景,希望推進新聞產業在資料科學上的實力與應用。

人類文明邁入電腦科技與網路時代,資料科學逐漸成為一個顯學,無論是資料視覺化、統計分析或是資料探勘等等的學問都變得相當重要。資料新聞學從衛報的資料部落格開始,到現在已經成為做記者不可或缺的能力,然而時代交替的這個當下記者的職前訓鍊仍然是以傳統的寫作與報導為主,直到這幾年大學才開始廣設資料新聞的相關課程;即便如此,技術力也是一個資料新聞的門檻。

DataBasic 兩位創辦人 Catherine D’Ignazio ( Emerson College ) 與 Rahul Bhargava ( MIT Center for Civic Media ) 似乎也是觀察到了這塊資料與新聞領域的真空,所以提出了 DataBasic 的概念:初學者、教育者與資料的交界點,我們需要用 DataBasic 來填滿。

WtfCSV

WtfCSV 提供資料的摘要資訊,包含簡單的統計與視覺化。以下圖為例,它針對各個欄位的資料形態做簡單的判斷,並自動挑選適合的圖表類型做快速的資料呈現。每個黃色的色塊代表了一個欄位,左上方的紅色圈圈標明了資料類型,目前可以看到有「文字」、「數字」與「日期」;呈現方式則有長條圖、Histogram 、折線圖與文字雲等等。

wtfcsv

比方說,上圖的「Sex」資料形態為「文字」,但他用兩個長條分別表示男性與女性的數量;而左方的「Name」資料形態同為「文字」,他便使用文字雲來呈現資料,以快速並清楚的表現文字出現的頻率。上圖的年紀則以 8 歲一個區間做 Histogram 表現;另外,沒有出現在上圖的時間資料欄位則可能使用折線的方式來表現趨勢。

WordCounter

WordCounter 提供文本資料簡易的摘要,包含表現文字頻慮的文字雲以及單字、雙字與三字組合詞各別的出現次數表。多重字組的頻率分析比較少看到相似的工具,不失為一個初步探索資料的方式。下面為工具利用其範例資料產生的報告截圖:

wordcount

 

SameDiff

文本資料除了各別探索外,也可以用比較的方式來理解, SameDiff 將兩個文本彼此間共同出現的字頻與獨特的文字次數做簡單的呈現。比方說下圖中央的文字顯示的是在兩個範例文本間都有出現的文字,左右則是只出現在其中一個文本中的文字。同樣的文字依照其出現的頻率做排序。

samediff

 

三個工具的使用都非常簡單,我們所需要的幾乎就只是上傳資料,接著 DataBasic 便幫我們處理掉所有問題,不愧是為初學者打造的工具。事實上,DataBasic 打造工具的中心原則也是如此,他們希望每個工具能夠專注解決一個問題、不要有太多選項,而且越容易進入越好。兩位創辦人甚至舉辦了數次的工作坊來探索這些工具的可能性與改進空間。

由於才剛剛上線,就 DataBasic 的願景來看,我們可以期待未來在這裡看到更多有趣與實用的工具,以開發速度來看未來一年內應該有機會陸續看到數個工具誕生吧,照 DataBasic Logo 與工具的顏色來看, Logo 用了五種顏色,而目前其中只有三種顏色用在三個不同的工具上,我們是否可以期待會出現粉紅色與藍色的工具呢 ( 好像某種戰隊… )?

然而,各別的工具我認為需要更有效的串連方式與使用情境,才能發揮其功效,尤其是對初學者而言。是否真的能成為一個很棒的資料科學入門服務,就讓我們再觀察看看 DataBasic 的後續發展吧!


Written by infographics.tw

發表迴響

你的電子郵件位址並不會被公開。 必要欄位標記為 *