《大數據》精華篇：他們讓資料變商機

大數據怎麼用〉Google、UPS、亞馬遜成功經驗

一場大數據分析的「資料革命」登場，正掀起生活、工作和思考方式的全面革新。然而，面對雜亂無章的巨量資料，究竟怎麼理出頭緒，卻成了大家最頭痛的問題。麻省理工學院教授布林約爾松（Erik Brynjolfsson），具體研究擅長使用資料來決策的公司，整體績效比不用資料的企業，生產力至少高出6％，例如，Google、亞馬遜等企業競爭力不斷往上提上，而不少新創公司則因為有巨量資料思惟，成為明日之星。《大數據》作者、牛津大學教授麥爾荀伯格提出使用巨量資料，五大最重要觀念，只要跟著這樣的邏輯，大家都可能成為新贏家。

1〉資料數量遠比品質更重要

成功案例：Google

在大數據時代下，資料數量已比資料品質重要。涵蓋60種語言的Google翻譯，就是一個絕妙例子。早在1990年代，IBM的專家曾開發一套Candide翻譯系統，採用加拿大國會的英法語雙語文件，大約是300萬個句對，訓練電腦讀懂使用機率，到底A語言的辭彙，最有可能對應到B語言的哪個詞彙，來增加翻譯的精準度，把翻譯轉換成數學問題但後來進展卻不大，終告放棄。

2000年時，微軟語言處理專家發現，當他們在進行文法校正的「機器學習」時，隨著輸入的資料量不斷增加，準確度顯著提升，他們當時下了一個假設，「或許我們要重新考慮，是要砸錢來開發程式演算法，還是擴大語料庫。」

接受不精確 先求擴大資料規模

幾年之後，Google也決定投入翻譯領域，但不同於IBM使用300萬個精心翻譯的句子，而是使用手邊更龐大、更混亂的資料集。Google的翻譯系統母體大至全球網路，廣達數十億個翻譯網頁，有高達兆字的語料庫，收錄所找到的每一則翻譯，用來訓練電腦。

資料來源包含各公司網站、官方文件的多語翻譯，國際組織的多語報告，或是Google圖書掃描計畫，納入的書籍翻譯，甚至包含網上各種斷簡殘篇、品質參差不齊、混亂的資料。這樣一來，翻譯的準確度再度提升，甚至某個英文字之後，出現另外一個字的機率，都能夠計算出來。

Google人工智慧專家指出，Google使用的資料，常有不完整的句子，拼字錯誤、文法缺誤，但正因為擁有比其他語料庫多出千萬倍的資料，足以蓋過缺點。因此，進入大數據時代的第一個觀念，就是要接受，資料「數量」遠比資料「品質」重要，而且要接受雜亂，不能事事要求精確。

2〉找相關性而非執著因果關係

成功案例：紐約市公安管理

以紐約市為例，每年都因為地下管道火災，付出不少代價，路面上重達140公斤的鑄鐵人孔蓋更常因為悶燒爆炸，飛到幾層樓高，再砸回地面，造成嚴重公安困擾。但紐約市的地下電纜，長度超過15萬公里，足以繞地球三圈半，光曼哈頓就有超過5萬1000個人孔蓋，數量之多，就算每年定期檢查，意外仍然防不勝防。

負責管理的愛迪生聯合電力公司，找上哥倫比亞大學統計專家魯丁（Cynthia Rudin）協助。怎麼做呢？第一步，他們先蒐集1880年到2008年管路歷史資料，但光是要表達「維修孔」，就有38種不同的寫法，資料雜亂無章。研究的重點，在於找出「相關性」。不在於「為什麼會爆炸」，而是「哪個人孔會爆炸」。

挑有效指標 逐步縮小問題範圍

研究小組從106個重大人孔災害預測指標下手，慢慢去蕪存菁，最後剩下幾個最有效的指標。接著他們再縮小範圍，僅研究某一區的地下電纜，分析截至2008年的資料，來預測2009年的危險人孔位置，結果小組列出的前10％危險清單，的確有44％曾發生過嚴重事故，也據此找出最有相關性的幾個指標。

最後，小組發現「電纜年份」和「過去是否發生事故」，是最重要的判斷指標，依此原則來替市區幾萬個人孔蓋排定檢查順序。雖然答案好像顯而易見，但是過去卻渾然未覺，直到分析團隊用大數據的科學驗證，大家才恍然大悟。

紐約市還有另一個嚴重問題，是住宅非法改建，不少房子都隔成許多小間，住了比原本設計多十倍人數，常發生火災。為了減少意外死亡，政府需要知道的，反而不是為何有如此多非法住宅，而是這些非法住宅到底在哪裡？

怎麼找出來？第一，先取得全市90萬筆住宅資料，再整合19個機構資料，像房屋稅繳納狀況、是否為法拍屋、水電費是否異常，都納入考慮。團隊也納入住宅屋型、年份、救護車出勤率、鼠患、非法改建投訴等資料，再拿來與五年來火災程度資料比對，找出「相關性」來建立預測系統。

除了已記錄的資料，市府團隊還訪問了資深檢查員，儘可能找出更多可以比對的指標。例如，他們從老幹員的口中，發現新砌外牆的住宅，有問題的機率很低，但是調查員也說不上來為什麼，只說是憑直覺，後來發現曾經老屋拉皮的建築，表示住戶較重視環境維護，發生事故的機率就比較低。因此分析專家回頭把「市府老舊建物拉皮」這個變項也納入系統，就像用「刪去法」一般，篩選掉相對低風險的住宅，提升預測的準確度。

透過反覆比對 提升預測準確度

另外，紐約市府本來以為某棟住宅投訴電話愈多，表示危險程度愈高，因此常常前往稽查，浪費不少人力。後來幾番分析比對才發現，事實相去甚遠，因為在上東城高級住宅區，只要有一隻老鼠，投訴電話就成天響個不停，但是在相對落後的布魯克林區，非得等到鼠患嚴重，才有投訴進線。

透過這樣反覆比對原始指標和每週收到的即時資料，紐約市府每星期都能列出，可能發生火災的前五名名單，立即交給檢察員處理，讓這套巨量資料預測系統大獲成功。透過相關性篩選出來的危險建物名單，竟然有70％以上確實需要撤離住民，成效斐然。

3〉看似沒用的資料也有商機

成功案例：Foursquare、UPS、推特、亞馬遜

除了要能接受雜亂資料，從中找出相關性，迎接大數據，還有另一個重點，就是任何紀錄，甚至連情緒、社交圖譜、搜尋軌跡，都可資料化。例如，當「地理位置」成為資料，有無限商機。全球最大的打卡社群平台Foursquare，最重要的功能就是讓用戶，隨時打卡、拍照上傳景點。

這些蘊含用戶地域位置的打卡資料、軌跡，只要仔細紀錄下來，便能夠了解某一時間、地點，用戶都在做些什麼事？藉此推播精準的廣告、折扣訊息。甚至星巴克、麥當勞都跟Foursquare購買這些打卡資料，來分析決定要在哪裡開新門市。Foursquare也從一個社群平台，變成有附加價值的精確市場分析資料提供商。

循司機行車路徑 找出省時省油路線

快遞公司優必速（UPS）也是率先把「地理位置」資料化的成功案例。他們透過每台貨車的無線電設備和GPS，精確知道車輛位置，並從累積下來無數筆的行車路徑，找出最佳行車路線。從這些分析中，UPS發現十字路口最易發生意外、紅綠燈最浪費時間，只要減少通過十字路口次數，就能省油、提高安全。靠著資料分析，UPS一年送貨里程大幅減少4800公里，等於省下300萬加侖的油料及減少3萬噸二氧化碳，安全性和效率也提高了。

從推文動態 判斷行銷活動成敗

當「情緒」和「社交互動」成為資料，又能做些什麼？推特就是最好的例子，每天至少有4億則以上推文，明明大多數推文，看來就像是隨口嚷嚷，但卻成了重要「分析」指標，可以用來及早了解消費者反應，或是判斷行銷活動成果，不少公司都搶著要和推特簽訂資料的存取權。

當用戶的網路「軌跡」成為資料，又有何用？網購龍頭亞馬遜正是依照客戶瀏覽的歷史，來比對「產品」和「產品」的關連性，開發無人能敵的自動推薦系統。現在亞馬遜上，每三筆訂單，就有一筆是來自電腦推薦和客製化系統。

4〉挖出巨量資料的新價值

成功案例：新創公司、老牌公司翻身

千萬別以為用大數據分析，是大公司或是科技大廠的專利，小型企業不一定要自己擁有資料，可以靠授權獲得，再使用廉價雲端運算平台分析。擁有「巨量資料」思惟和好點子，能讓新創公司蓬勃發展。一位美國頂尖的資料科學家伊茲奧尼（Oren Etzioni），就是利用巨量資料創業的先驅。

幾年前，伊茲奧尼在從西雅圖飛往洛杉磯參加弟弟婚禮的飛機上，發現臨座幾位乘客的票價都比他的便宜，打破以往覺得飛機票愈早買、愈省錢的想法，萌生創業點子。

分析舊票價資料 抓出未來漲跌

伊茲奧尼開發出預測飛機票未來是漲是跌的服務「Farecast」。最重要的關鍵是取得特定航線的所有票價資訊，再比對與出發日期的關連性，如果平均票價下跌，買票的事還可緩一緩，如果平均票價上升，系統會建議立即購票。他先在某個旅遊網站取得1萬2000筆票價資料，作為樣本，建立預測模型，接著引進更多資料，直到現在，Farecast手中有2000億筆票價紀錄。

後來他的公司被微軟併購，把這套服務結合到Bing搜尋引擎中，平均為每位用戶節省50美元。去年被eBay併購的價格預測服務Decide.com，也是伊茲奧尼的傑作。在2012年，開業一年的Decide，已調查超過250億筆價格資訊、分析400萬項產品，隨時和資料庫中的產品價格比對。從普查中，他們發現零售業祕辛，就是新型號上市時，舊產品竟不跌反漲，或異常的價格暴漲，來警告消費者先等一等，再下手。

觀察網友文章 老產品找到新用法

一個老品牌翻身的故事，也是藉助網路上的部落格文，觸類旁通的創新行銷範例。風靡澳洲的酵母鹹味醬Vegemite品牌（已被美國最大食品集團卡夫Kraft併購），一直是澳洲家庭必備塗醬，但2009年時突然市占率下滑。卡夫集團委託IBM調查150萬筆論壇、部落格文、網路新聞，發現近50萬筆、38種不同語言關於酵母塗醬的內容，更發現大家會把酵母醬搭配酪梨、烤肉、番茄一起吃，是以往沒想過的新資訊。

於是，他們開啟公司史上最成功的行銷「你都怎麼用酵母醬？」讓大家分享吃法，成功讓Vegemite酵母醬再度熱賣，比過去銷量高峰期再高出5％。

5〉拒絕「資料獨裁」，小心依賴、濫用資料

失敗案例：Google

要成為巨量資料的贏家，要小心，不要被資料矇蔽。就算是資料高手的Google，也三不五時失敗。轉戰雅虎的Google前高層主管梅爾（Marissa Mayer），曾要求工作人員測試足足41種不同色階的藍色，有的甚至肉眼難以分辨，只為了知道網站工具列該挑什麼顏色。荀伯格指出，這些例子都證明Google對資料太言聽計從了，極端資料獨裁的結果，也遭來反抗。

Google的頂尖設計師鮑曼正是受不了一切都要量化，憤而離職。他在部落格上寫道：「我們爭論到底某個邊界究竟該是3、4還是5個像素寬，……如果以為每個決定都可以簡化成邏輯問題，這些資料最後就會變成拐杖，每個決定都需要拄著柺杖，讓整個公司癱瘓！」

荀伯格提醒，不能過分依賴資料，否則可能如同希臘神話中伊卡洛斯（Icarus）所犯的錯誤——他搭著鳥羽和蠟，製成的飛行翼翱翔天際，但卻太相信自己的飛翔技能，使用不當而折翼墜海。