本報(bào)記者 高 博
所有評(píng)論家都喜歡提到“尿片與啤酒”的故事,,認(rèn)為它是大數(shù)據(jù)分析的開(kāi)始:1960年代,沃爾瑪連鎖超市研究銷(xiāo)售記錄發(fā)現(xiàn),,給孩子買(mǎi)紙尿片的男人都會(huì)順便買(mǎi)幾瓶啤酒,。為此,超市在尿布旁邊擺上了啤酒架,,方便顧客,。這是半個(gè)世紀(jì)前的事了。
1980年代著名的未來(lái)學(xué)書(shū)籍《第三次浪潮》,預(yù)言未來(lái)信息時(shí)代必然有“big data(大數(shù)據(jù))”應(yīng)用,。不過(guò),,就在5年前,網(wǎng)上百科全書(shū)Wikipedia還不愿開(kāi)辟“big data”的詞條,,認(rèn)為這不過(guò)是兩個(gè)單詞的組合而已,。當(dāng)時(shí)網(wǎng)上普遍認(rèn)為,大數(shù)據(jù)更多的是概念和憧憬,,其志向不小,,成就卻不多。
而就在近兩年,,大數(shù)據(jù)應(yīng)用突然爆炸,,五彩繽紛的創(chuàng)意都變成現(xiàn)實(shí)。即使最謹(jǐn)慎的觀察家也承認(rèn),,大數(shù)據(jù)的商業(yè)應(yīng)用時(shí)代已經(jīng)來(lái)臨,,正因?yàn)樗八从械哪芰Α獪?zhǔn)確預(yù)測(cè)。
數(shù)據(jù)大爆發(fā),,帶來(lái)“新石油”
去年,,演繹白宮政治的《紙牌屋》成了美國(guó)收視率第一的電視劇,這絲毫不出制片人的意料——計(jì)算機(jī)分析了多年的數(shù)據(jù),,發(fā)現(xiàn)一部電視劇如果具備三個(gè)元素,,就必定大賣(mài):導(dǎo)演大衛(wèi)·芬奇、奧斯卡影帝凱文·史派西,、BBC劇風(fēng)格,。《紙牌屋》就是在數(shù)據(jù)指導(dǎo)下,,如法炮制,,果然紅透半邊天。這個(gè)例子很能說(shuō)明大數(shù)據(jù)應(yīng)用的特點(diǎn):從海量數(shù)據(jù)里發(fā)掘出從前沒(méi)意識(shí)到的聯(lián)系,,并且將它轉(zhuǎn)化為利潤(rùn),。
邁爾-舍恩伯格和庫(kù)克耶合著的《大數(shù)據(jù)時(shí)代》一書(shū)認(rèn)為,數(shù)據(jù)量一旦變“大”,,根據(jù)數(shù)據(jù)預(yù)測(cè)就會(huì)十分可靠,,而不再是小數(shù)據(jù)時(shí)代的模糊推測(cè)了。他們認(rèn)為,,大數(shù)據(jù)的核心就是預(yù)測(cè),。
美國(guó)工程師愛(ài)奇奧尼搭飛機(jī)時(shí),發(fā)現(xiàn)旁邊的旅客買(mǎi)票比他便宜,。于是他開(kāi)發(fā)了一個(gè)系統(tǒng),,預(yù)測(cè)機(jī)票價(jià)格的漲跌。截至2012年,他的“faircast”系統(tǒng)用網(wǎng)上的10萬(wàn)億條價(jià)格記錄去推測(cè)機(jī)票何時(shí)價(jià)格為何,,預(yù)測(cè)準(zhǔn)確度達(dá)75%,,幫助旅客平均每張機(jī)票節(jié)省50美元。
愛(ài)奇奧尼并不懂航空業(yè),,他所做的僅僅是查閱過(guò)去的數(shù)據(jù),,就能從中做出有價(jià)值的判斷,。
還有一個(gè)例子廣為人知。google能從網(wǎng)民搜索關(guān)鍵詞中推斷出一場(chǎng)流感正在蔓延,。工程師實(shí)驗(yàn)了4.5億個(gè)不同的數(shù)學(xué)模型,,最后發(fā)現(xiàn),,45條檢索詞條組合用于某個(gè)數(shù)學(xué)模型,與過(guò)去的流感數(shù)據(jù)十分吻合,。由此,,google第一時(shí)間發(fā)現(xiàn)了2009年甲型H1N1流感的傳播,比官方確認(rèn)早一兩周,。
無(wú)獨(dú)有偶,,美國(guó)政府為了公布CPI數(shù)據(jù),雇用很多人調(diào)查90個(gè)城市的8萬(wàn)種價(jià)格信息,,每年要花費(fèi)2.5億美元,。而麻省理工學(xué)院的兩位經(jīng)濟(jì)學(xué)家,通過(guò)一個(gè)軟件在網(wǎng)上捕捉50萬(wàn)種商品的價(jià)格信息去做同樣的事情,。金融危機(jī)時(shí),,雷曼剛破產(chǎn)他們就發(fā)現(xiàn)了通貨緊縮的趨勢(shì),比政府早發(fā)現(xiàn)兩個(gè)月,。
大數(shù)據(jù)預(yù)測(cè)并不復(fù)雜,,不論是價(jià)格預(yù)測(cè),還是疫情預(yù)測(cè),,只要有海量的數(shù)據(jù)就行,。Word程序中語(yǔ)法檢查使用的4種算法,隨著其依靠的數(shù)據(jù)量從500萬(wàn)變?yōu)?0億,,表現(xiàn)都大為提高,。彼得·諾威格,谷歌公司的人工智能專(zhuān)家寫(xiě)道:“大數(shù)據(jù)基礎(chǔ)上的簡(jiǎn)單算法比小數(shù)據(jù)基礎(chǔ)上的復(fù)雜算法更有效,?!?
但在“尿片與啤酒”的年代,10億條級(jí)別的信息量還很難獲得,。人們只能建立數(shù)據(jù)庫(kù),,將一部分信息分門(mén)別類(lèi)地入庫(kù),其他的丟棄。直到最近,,計(jì)算機(jī)處理速度的飛躍和低成本的存儲(chǔ),,才實(shí)現(xiàn)了“一切盡錄”,讓大數(shù)據(jù)分析成為現(xiàn)實(shí),。
目前,,美國(guó)股市三分之二的交易,是計(jì)算機(jī)程序根據(jù)海量數(shù)據(jù)預(yù)測(cè)和自動(dòng)做出的,。由此來(lái)看,,美國(guó)2012年3月的《大數(shù)據(jù)研究和發(fā)展計(jì)劃》中提出的“大數(shù)據(jù)是新石油”,并不完全是理想,,已經(jīng)部分成真,。
記錄一個(gè)人的過(guò)去,就知道他的未來(lái)
即使是普通人也能注意到,,各個(gè)領(lǐng)域收集的數(shù)據(jù)量都在爆發(fā),。人類(lèi)存儲(chǔ)信息量的增長(zhǎng)速度比經(jīng)濟(jì)增速快4倍,而計(jì)算機(jī)數(shù)據(jù)處理能力的增速更比經(jīng)濟(jì)增速快了9倍,。
信息爆炸的端倪參見(jiàn)美國(guó)“斯隆數(shù)字巡天望遠(yuǎn)鏡”:運(yùn)行短短幾周,,斯隆收集的數(shù)據(jù)比天文學(xué)歷史上總共的數(shù)據(jù)還多;而預(yù)計(jì)2016年,,智利的“大視場(chǎng)全景巡天望遠(yuǎn)鏡”5天就能收集同樣多的信息,。不光是科學(xué)儀器,互聯(lián)網(wǎng),、視頻監(jiān)控網(wǎng),,以及傳感器網(wǎng)(物聯(lián)網(wǎng)),都在提供海量信息,。有人甚至預(yù)測(cè),,不需太久,信息爆炸造成的一年數(shù)據(jù)量就將超過(guò)人類(lèi)歷史上積攢的所有數(shù)據(jù)量,。
如今,,一個(gè)人的電子郵件、手機(jī)通話記錄,、網(wǎng)購(gòu)記錄,、網(wǎng)上發(fā)布內(nèi)容等等,全都在各家公司的硬盤(pán)里存儲(chǔ)著,;同時(shí),,他的行蹤被手機(jī)記下;身影被街頭的監(jiān)控器捕捉……一旦這些數(shù)據(jù)串聯(lián)起來(lái),,這個(gè)人的一舉一動(dòng)幾乎無(wú)從遁形,。
讓人吃驚的是,,根據(jù)《爆發(fā)》一書(shū)的作者巴拉巴西的論證,人的行為是高度重復(fù)和可預(yù)測(cè)的(巴拉巴西甚至算出,,93%的行為是可預(yù)測(cè)的),。因此一旦明白了人的過(guò)去,就掌握了他的未來(lái),。
大大小小的機(jī)構(gòu),,都想利用大數(shù)據(jù)時(shí)代這個(gè)神奇的現(xiàn)象獲利。其中一些對(duì)人類(lèi)行為的預(yù)測(cè),,已經(jīng)顯示出威力,。今年的奧斯卡金像獎(jiǎng)?lì)C獎(jiǎng)禮之前,微軟紐約研究院的大衛(wèi)·羅斯柴爾德通過(guò)大數(shù)據(jù)分析,,預(yù)測(cè)了各大獎(jiǎng)項(xiàng)的歸屬,。結(jié)果除了最佳導(dǎo)演獎(jiǎng)外,,他全部猜中,。而他在2012年美國(guó)總統(tǒng)大選中,就根據(jù)過(guò)去的數(shù)據(jù),,準(zhǔn)確預(yù)測(cè)了51個(gè)選區(qū)中50個(gè)地區(qū)的選舉結(jié)果,。
大型超市Target公司根據(jù)20多種購(gòu)買(mǎi)物,判斷顧客的孕期階段,,并適時(shí)寄去推薦清單,。有時(shí),甚至顧客還不知道自己已經(jīng)懷孕了,,Target的系統(tǒng)就能從其購(gòu)買(mǎi)偏好的改變上判斷出來(lái),。
美國(guó)一家個(gè)人消費(fèi)評(píng)估公司推出了“遵從醫(yī)囑評(píng)分”,這個(gè)評(píng)分會(huì)幫助醫(yī)療機(jī)構(gòu)知道哪些人更需要被提醒及時(shí)用藥,。這個(gè)評(píng)分是分析一系列變量來(lái)確定的,,比如某人在某地居住多久,是否結(jié)婚,,多久換一個(gè)工作及有沒(méi)有私家車(chē),。
要知道一個(gè)人是否會(huì)及時(shí)吃藥,為何要查閱他的工作簡(jiǎn)歷或者私家車(chē),?誰(shuí)都說(shuō)不上來(lái),。但事實(shí)是,只要過(guò)去的數(shù)據(jù)顯示,,有私家車(chē),、很少換工作的人更愿意按時(shí)服藥,那么今后肯定也是如此,。
而微軟跟華盛頓中心醫(yī)院合作,,發(fā)現(xiàn)充血性心力衰竭病人如果初診中有類(lèi)似“壓抑”這種暗示心理疾病的詞,,再度入院的可能性也會(huì)增大。
知道如此就夠了,,不必問(wèn)為何如此
《大數(shù)據(jù)時(shí)代》一書(shū)中強(qiáng)調(diào),,大數(shù)據(jù)不關(guān)心“因果”,只在乎“相關(guān)”,。這一點(diǎn)也被此書(shū)的擁躉們反復(fù)強(qiáng)調(diào),。因?yàn)榇髷?shù)據(jù)分析,人們理解世界,,不再需要探討“內(nèi)在機(jī)理”,。大數(shù)據(jù)不是教機(jī)器像人一樣思考,而是簡(jiǎn)單的數(shù)學(xué)算法用在海量數(shù)據(jù)上,,讓數(shù)據(jù)自己說(shuō)話,。
在最難確定因果關(guān)系的人體科學(xué)領(lǐng)域,大數(shù)據(jù)分析同樣屢有斬獲,。中英人壽保險(xiǎn)公司用幾百種生活方式的數(shù)據(jù),,比如愛(ài)好、常瀏覽的網(wǎng)站,、??吹墓?jié)目以及收入等,找出更可能患高血壓,、糖尿病和抑郁癥的人,。
丹麥癌癥協(xié)會(huì)2011年發(fā)表文章,利用1985年以來(lái)的全部手機(jī)用戶數(shù)據(jù),,與同期所有癌癥患者數(shù)據(jù)結(jié)合來(lái)看,,發(fā)現(xiàn)癌癥跟使用手機(jī)并沒(méi)有關(guān)系。
還有美國(guó)研究者通過(guò)16個(gè)不同數(shù)據(jù),,發(fā)現(xiàn)早產(chǎn)兒穩(wěn)定的生命體征不是病情好轉(zhuǎn)的標(biāo)志,,而是暴風(fēng)雨前的寧?kù)o。研究者并不知道具體原因,,只知道數(shù)據(jù)顯示出是如此,。
有了大數(shù)據(jù),分析不必知其所以然,。著名的谷歌翻譯小組,,竟然不需要語(yǔ)言學(xué)家。他們完全是讓計(jì)算機(jī)根據(jù)網(wǎng)上的數(shù)據(jù),,去判斷一段英文可能對(duì)應(yīng)于哪一段中文,。一開(kāi)始這種翻譯質(zhì)量不會(huì)太好,隨著信息量的增加,,機(jī)器會(huì)翻譯得越來(lái)越讓人滿意,。
有了大數(shù)據(jù),,分析也不需要太精確,因?yàn)榕刻幚碓试S瑕疵存在,。ZestFinance是一家由計(jì)算機(jī)決定是否為客戶提供貸款的公司,。它的客戶信息表中有大量空白。甚至有10%的客戶屬性是“已去世”,,這顯然是錯(cuò)的,,實(shí)際上這些客戶是還貸款的。這家公司不會(huì)太精確地對(duì)待它的數(shù)據(jù),,然而其貸款拖欠率比行業(yè)平均水平低三分之一,。
英國(guó)石油公司在美國(guó)的一個(gè)煉油廠里,安裝了很多無(wú)線感應(yīng)器,,因?yàn)楦邷睾碗娖鞲蓴_,,不少感應(yīng)器讀數(shù)是錯(cuò)的,但數(shù)據(jù)一多,,這些錯(cuò)誤就可以彌補(bǔ),。通過(guò)隨時(shí)監(jiān)測(cè)管道承壓,廠方發(fā)現(xiàn)某些原油更具腐蝕性,,就可以發(fā)現(xiàn)和防止,。
UPS快遞公司在所有卡車(chē)上安裝傳感器,如果發(fā)現(xiàn)數(shù)據(jù)異常,,他們就提前更換零件,這樣節(jié)省了好幾百萬(wàn)美元修理費(fèi)用,。他們并不在乎傳感器數(shù)據(jù)是否準(zhǔn)確,。但這樣做的確有效。
像那句老話所說(shuō):“量變引起質(zhì)變”,。數(shù)據(jù)量極多時(shí),,數(shù)據(jù)分析就呈現(xiàn)出我們所不熟悉的屬性——因果關(guān)系淡出;單個(gè)數(shù)據(jù)準(zhǔn)確不再重要,;而預(yù)測(cè)幾乎必然準(zhǔn)確,。大數(shù)據(jù)如同巫師一樣的神力,既讓我們陌生,,又讓我們激動(dòng),。