BRANDinLABS品牌癮網站是由Labsology法博思品牌顧問公司所經營維護

《大数据》精华篇:他们让资料变商机

Written by
Cloud

大数据怎么用〉Google、UPS、亚马逊成功经验

一场大数据分析的“资料革命”登场,正掀起生活、工作和思考方式的全面革新。然而,面对杂乱无章的巨量资料,究竟怎么理出头绪,却成了大家最头痛的问题。 麻省理工学院教授布林约尔松(Erik Brynjolfsson),具体研究擅长使用资料来决策的公司,整体绩效比不用资料的企业,生产力至少高出6%,例如,Google、亚马逊等企业竞争力不断往上提上,而不少新创公司则因为有巨量资料思惟,成为明日之星。《大数据》作者、牛津大学教授麦尔荀伯格提出使用巨量资料,五大最重要观念,只要跟着这样的逻辑,大家都可能成为新赢家。

 

大数据精华篇他们让资料变商机

 

1〉资料数量远比品质更重要

成功案例:Google

在大数据时代下,资料数量已比资料品质重要。涵盖60种语言的Google翻译,就是一个绝妙例子。早在1990年代,IBM的专家曾开发一套Candide翻译系统,采用加拿大国会的英法语双语文件,大约是300万个句对,训练电脑读懂使用机率,到底A语言的词汇,最有可能对应到B语言的哪个词汇,来增加翻译的精准度,把翻译转换成数学问题 但后来进展却不大,终告放弃。

 

2000年时,微软语言处理专家发现,当他们在进行文法校正的“机器学习”时,随着输入的资料量不断增加,准确度显著提升,他们当时下了一个假设,“或许我们要重新考虑,是要砸钱来开发程式算法,还是扩大语料库。”

 

接受不精确 先求扩大资料规模

几年之后,Google也决定投入翻译领域,但不同于IBM使用300万个精心翻译的句子,而是使用手边更庞大、更混乱的资料集。Google的翻译系统母体大至全球网络,广达数十亿个翻译网页,有高达兆字的语料库,收录所找到的每一则翻译,用来训练电脑。

 

资料来源包含各公司网站、官方文件的多语翻译,国际组织的多语报告,或是Google图书扫描计画,纳入的书籍翻译,甚至包含网上各种断简残篇、品质参差不齐、混乱的资料。这样一来,翻译的准确度再度提升,甚至某个英文字之后,出现另外一个字的机率,都能够计算出来。

 

Google人工智能专家指出,Google使用的资料,常有不完整的句子,拼字错误、文法缺误,但正因为拥有比其他语料库多出千万倍的资料,足以盖过缺点。因此,进入大数据时代的第一个观念,就是要接受,资料“数量”远比资料“品质”重要,而且要接受杂乱,不能事事要求精确。

 

2〉找相关性而非执著因果关系

成功案例:纽约市公安管理

以纽约市为例,每年都因为地下管道火灾,付出不少代价,路面上重达140公斤的铸铁人孔盖更常因为闷烧爆炸,飞到几层楼高,再砸回地面,造成严重公安困扰。但纽约市的地下电缆,长度超过15万公里,足以绕地球三圈半,光曼哈顿就有超过5万1000个人孔盖,数量之多,就算每年定期检查,意外仍然防不胜防。

 

负责管理的爱迪生联合电力公司,找上哥伦比亚大学统计专家鲁丁(Cynthia Rudin)协助。怎么做呢?第一步,他们先蒐集1880年到2008年管路历史资料,但光是要表达“维修孔”,就有38种不同的写法,资料杂乱无章。研究的重点,在于找出“相关性”。不在于“为什么会爆炸”,而是“哪个人孔会爆炸”。

 

挑有效指标 逐步缩小问题范围

研究小组从106个重大人孔灾害预测指标下手,慢慢去芜存菁,最后剩下几个最有效的指标。接着他们再缩小范围,仅研究某一区的地下电缆,分析截至2008年的资料,来预测2009年的危险人孔位置,结果小组列出的前10%危险清单,的确有44%曾发生过严重事故,也据此找出最有相关性的几个指标。

 

最后,小组发现“电缆年份”和“过去是否发生事故”,是最重要的判断指标,依此原则来替市区几万个人孔盖排定检查顺序。虽然答案好像显而易见,但是过去却浑然未觉,直到分析团队用大数据的科学验证,大家才恍然大悟。

 

纽约市还有另一个严重问题,是住宅非法改建,不少房子都隔成许多小间,住了比原本设计多十倍人数,常发生火灾。为了减少意外死亡,政府需要知道的,反而不是为何有如此多非法住宅,而是这些非法住宅到底在哪里?

 

怎么找出来?第一,先取得全市90万笔住宅资料,再整合19个机构资料,像房屋税缴纳状况、是否为法拍屋、水电费是否异常,都纳入考虑。团队也纳入住宅屋型、年份、救护车出勤率、鼠患、非法改建投诉等资料,再拿来与五年来火灾程度资料比对,找出“相关性”来建立预测系统。

 

除了已记录的资料,市府团队还访问了资深检查员,尽可能找出更多可以比对的指标。例如,他们从老干员的口中,发现新砌外墙的住宅,有问题的机率很低,但是调查员也说不上来为什么,只说是凭直觉,后来发现曾经老屋拉皮的建筑,表示住户较重视环境维护,发生事故的机率就比较低。因此分析专家回头把“市府老旧建物拉皮”这个变项也纳入系统,就像用“删去法”一般,筛选掉相对低风险的住宅,提升预测的准确度。

 

透过反复比对 提升预测准确度

另外,纽约市府本来以为某栋住宅投诉电话愈多,表示危险程度愈高,因此常常前往稽查,浪费不少人力。后来几番分析比对才发现,事实相去甚远,因为在上东城高级住宅区,只要有一只老鼠,投诉电话就成天响个不停,但是在相对落后的布鲁克林区,非得等到鼠患严重,才有投诉进线。

 

透过这样反复比对原始指标和每周收到的即时资料,纽约市府每星期都能列出,可能发生火灾的前五名名单,立即交给检察员处理,让这套巨量资料预测系统大获成功。透过相关性筛选出来的危险建物名单,竟然有70%以上确实需要撤离住民,成效斐然。

 

3〉看似没用的资料也有商机

成功案例:Foursquare、UPS、推特、亚马逊

除了要能接受杂乱资料,从中找出相关性,迎接大数据,还有另一个重点,就是任何纪录,甚至连情绪、社交图谱、搜寻轨迹,都可资料化。例如,当“地理位置”成为资料,有无限商机。全球最大的打卡社群平台Foursquare,最重要的功能就是让用户,随时打卡、拍照上传景点。

 

这些蕴含用户地域位置的打卡资料、轨迹,只要仔细纪录下来,便能够了解某一时间、地点,用户都在做些什么事?借此推播精准的广告、折扣讯息。甚至星巴克、麦当劳都跟Foursquare购买这些打卡资料,来分析决定要在哪里开新门市。Foursquare也从一个社群平台,变成有附加价值的精确市场分析资料提供商。

 

循司机行车路径 找出省时省油路线

快递公司优必速(UPS)也是率先把“地理位置”资料化的成功案例。他们透过每台货车的无线电设备和GPS,精确知道车辆位置,并从累积下来无数笔的行车路径,找出最佳行车路线。从这些分析中,UPS发现十字路口最易发生意外、红绿灯最浪费时间,只要减少通过十字路口次数,就能省油、提高安全。靠着资料分析,UPS一年送货里程大幅减少4800公里,等于省下300万加仑的油料及减少3万吨二氧化碳,安全性和效率也提高了。

 

从推文动态 判断行销活动成败

当“情绪”和“社交互动”成为资料,又能做些什么?推特就是最好的例子,每天至少有4亿则以上推文,明明大多数推文,看来就像是随口嚷嚷,但却成了重要“分析”指标,可以用来及早了解消费者反应,或是判断行销活动成果,不少公司都抢着要和推特签订资料的存取权。

 

当用户的网络“轨迹”成为资料,又有何用?网购龙头亚马逊正是依照客户浏览的历史,来比对“产品”和“产品”的关连性,开发无人能敌的自动推荐系统。现在亚马逊上,每三笔订单,就有一笔是来自电脑推荐和客制化系统。

 

4〉挖出巨量资料的新价值

成功案例:新创公司、老牌公司翻身

千万别以为用大数据分析,是大公司或是科技大厂的专利,小型企业不一定要自己拥有资料,可以靠授权获得,再使用廉价云端运算平台分析。拥有“巨量资料”思惟和好点子,能让新创公司蓬勃发展。一位美国顶尖的资料科学家伊兹奥尼(Oren Etzioni),就是利用巨量资料创业的先驱。

 

几年前,伊兹奥尼在从西雅图飞往洛杉矶参加弟弟婚礼的飞机上,发现临座几位乘客的票价都比他的便宜,打破以往觉得飞机票愈早买、愈省钱的想法,萌生创业点子。

 

分析旧票价资料 抓出未来涨跌

伊兹奥尼开发出预测飞机票未来是涨是跌的服务“Farecast”。最重要的关键是取得特定航线的所有票价资讯,再比对与出发日期的关连性,如果平均票价下跌,买票的事还可缓一缓,如果平均票价上升,系统会建议立即购票。他先在某个旅游网站取得1万2000笔票价资料,作为样本,建立预测模型,接着引进更多资料,直到现在,Farecast手中有2000亿笔票价纪录。

 

后来他的公司被微软并购,把这套服务结合到Bing搜寻引擎中,平均为每位用户节省50美元。去年被eBay并购的价格预测服务Decide.com,也是伊兹奥尼的杰作。在2012年,开业一年的Decide,已调查超过250亿笔价格资讯、分析400万项产品,随时和数据库中的产品价格比对。从普查中,他们发现零售业祕辛,就是新型号上市时,旧产品竟不跌反涨,或异常的价格暴涨,来警告消费者先等一等,再下手。

 

观察网友文章 老产品找到新用法

一个老品牌翻身的故事,也是借助网络上的部落格文,触类旁通的创新行销范例。风靡澳洲的酵母咸味酱Vegemite品牌(已被美国最大食品集团卡夫Kraft并购),一直是澳洲家庭必备涂酱,但2009年时突然市占率下滑。卡夫集团委托IBM调查150万笔论坛、部落格文、网络新闻,发现近50万笔、38种不同语言关于酵母涂酱的内容,更发现大家会把酵母酱搭配酪梨、烤肉、番茄一起吃,是以往没想过的新资讯。

 

于是,他们开启公司史上最成功的行销“你都怎么用酵母酱?”让大家分享吃法,成功让Vegemite酵母酱再度热卖,比过去销量高峰期再高出5%。

 

5〉拒绝“资料独裁”,小心依赖、滥用资料

失败案例:Google 

要成为巨量资料的赢家,要小心,不要被资料蒙蔽。就算是资料高手的Google,也三不五时失败。转战雅虎的Google前高层主管梅尔(Marissa Mayer),曾要求工作人员测试足足41种不同色阶的蓝色,有的甚至肉眼难以分辨,只为了知道网站工具列该挑什么颜色。荀伯格指出,这些例子都证明Google对资料太言听计从了,极端资料独裁的结果,也遭来反抗。

 

Google的顶尖设计师鲍曼正是受不了一切都要量化,愤而离职。他在部落格上写道:“我们争论到底某个边界究竟该是3、4还是5个像素宽,……如果以为每个决定都可以简化成逻辑问题,这些资料最后就会变成拐杖,每个决定都需要拄著柺杖,让整个公司瘫痪!”

 

荀伯格提醒,不能过分依赖资料,否则可能如同希腊神话中伊卡洛斯(Icarus)所犯的错误——他搭著鸟羽和蜡,制成的飞行翼翱翔天际,但却太相信自己的飞翔技能,使用不当而折翼坠海。

 

大数据精华篇他们让资料变商机2

 

【延伸活动】

《大数据》作者麦尔荀伯格─首度访台论坛2014/6/11登场

与你分享更多大数据最新趋势、应用案例!

报名网站:http://www.gvm.com.tw/event/201404_bigdata/

 

文章来源:远见杂志

  •  
  •  
  •  
  •  
  •  
  •  
  •  
文章分類:
趋势洞察

Leave a Comment