返回首頁(yè)
|
經(jīng)參·財智
|
經(jīng)參·思想
|
經(jīng)參·讀書(shū)
設為首頁(yè)
|
加入收藏
經(jīng)濟參考網(wǎng)讀書(shū)頻道
大數據,變革思維
人們不再認為數據是靜止和陳舊的。但在以前,一旦完成了收集數據的目的之后,數據就會(huì )被認為已經(jīng)沒(méi)有用處了。比方說(shuō),在飛機降落之后,票價(jià)數據就沒(méi)有用了(對谷歌而言,則是一個(gè)檢索命令完成之后)。 信息社會(huì )所帶來(lái)的好處是顯而易見(jiàn)的:每個(gè)人口袋里都揣有一部手機,每臺辦公桌上都放有一臺電腦,每間辦公室內都擁有一個(gè)大型局域網(wǎng)。但是,信息本身的用處卻并沒(méi)有如此引人注目。半個(gè)世紀以來(lái),隨著(zhù)計算機技術(shù)全面融入社會(huì )生活,信息爆炸已經(jīng)積累到了一個(gè)開(kāi)始引發(fā)變革的程度。它不僅使世界充斥著(zhù)比以往更多的信息,而且其增長(cháng)速度也在加快。信息總量的變化還導致了信息形態(tài)的變化——量變引發(fā)了質(zhì)變。最先經(jīng)歷信息爆炸的學(xué)科,如天文學(xué)和基因學(xué),創(chuàng )造出了“大數據”這個(gè)概念。如今,這個(gè)概念幾乎應用到了所有人類(lèi)致力于發(fā)展的領(lǐng)域中。 大數據并非一個(gè)確切的概念。最初,這個(gè)概念是指需要處理的信息量過(guò)大,已經(jīng)超出了一般電腦在處理數據時(shí)所能使用的內存量,因此工程師們必須改進(jìn)處理數據的工具。這導致了新的處理技術(shù)的誕生,例如谷歌的MapReduce 和開(kāi)源Hadoop 平臺(最初源于雅虎)。這些技術(shù)使得人們可以處理的數據量大大增加。更重要的是,這些數據不再需要用傳統的數據庫表格來(lái)整齊地排列——一些可以消除僵化的層次結構和一致性的技術(shù)也出現了。同時(shí),因為互聯(lián)網(wǎng)公司可以收集大量有價(jià)值的數據,而且有利用這些數據的強烈的利益驅動(dòng)力,所以互聯(lián)網(wǎng)公司就順理成章地成為最新處理技術(shù)的領(lǐng)頭實(shí)踐者。它們甚至超過(guò)了很多有幾十年經(jīng)驗的線(xiàn)下公司,成為新技術(shù)的領(lǐng)銜使用者。今天,一種可能的方式是,亦是本書(shū)采取的方式,認為大數據是人們在大規模數據的基礎上可以做到的事情,而這些事情在小規模數據的基礎上是無(wú)法完成的。大數據是人們獲得新的認知,創(chuàng )造新的價(jià)值的源泉;大數據還是改變市場(chǎng)、組織機構,以及政府與公民關(guān)系的方法。 大數據,開(kāi)啟重大的時(shí)代轉型 大數據開(kāi)啟了一次重大的時(shí)代轉型。與其他新技術(shù)一樣,大數據也必然要經(jīng)歷硅谷臭名昭著(zhù)的的技術(shù)成熟度曲線(xiàn):經(jīng)過(guò)新聞媒體和學(xué)術(shù)會(huì )議的大肆宣傳之后,新技術(shù)趨勢一下子跌到谷底,許多數據創(chuàng )業(yè)公司變得岌岌可危。當然,不管是過(guò)熱期還是幻想破滅期,都非常不利于我們正確理解正在發(fā)生的變革的重要性。 就像望遠鏡能夠讓我們感受宇宙,顯微鏡能夠讓我們觀(guān)測微生物,這種能夠收集和分析海量數據的新技術(shù)將幫助我們更好地理解世界——這種理解世界的新方法我們現在才意識到。本書(shū)旨在如實(shí)表達出大數據的內涵,而不會(huì )過(guò)分熱捧它。當然,真正的革命并不在于分析數據的機器,而在于數據本身和我們如何運用數據。 天文學(xué)領(lǐng)域的變化在各個(gè)領(lǐng)域都在發(fā)生。2003 年,人類(lèi)第一次破譯人體基因密碼的時(shí)候,辛苦工作了十年才完成了三十億對堿基對的排序。大約十年之后,世界范圍內的基因儀每15 分鐘就可以完成同樣的工作。在金融領(lǐng)域,美國股市每天的成交量高達70 億股。而其中三分之二的交易都是由建立在算法公式上的計算機程序完成的。這些程序運用海量數據來(lái)預測利益和降低風(fēng)險。 互聯(lián)網(wǎng)公司更是要被數據淹沒(méi)了。谷歌公司每天要處理超過(guò)24 拍字節的數據,這意味著(zhù)其每天的數據處理量是美國國家圖書(shū)館所有紙質(zhì)出版物所含數據量的上千倍。facebook 這個(gè)創(chuàng )立時(shí)間不足十年的公司,每天更新的照片量超過(guò)1 000 萬(wàn)張,每天人們在網(wǎng)站上點(diǎn)擊“ 喜歡”(Like)按鈕或者寫(xiě)評論次數大約有三十億次,這就為facebook 公司挖掘用戶(hù)喜好提供了大量的數據線(xiàn)索。與此同時(shí),谷歌子公司YouTube 每月接待多達8 億的訪(fǎng)客,平均每一秒鐘就會(huì )有一段長(cháng)度在一小時(shí)以上的視頻上傳。twitter 上的信息量幾乎每年翻一倍,截至2012 年,每天都會(huì )發(fā)布超過(guò)4 億條微博。 從科學(xué)研究到醫療保險,從銀行業(yè)到互聯(lián)網(wǎng),各個(gè)不同的領(lǐng)域都在講述著(zhù)一個(gè)類(lèi)似的故事,那就是爆發(fā)式增長(cháng)的數據量。這種增長(cháng)超過(guò)了我們創(chuàng )造機器的速度,甚至超過(guò)了我們的想象。 我們周?chē)降子卸嗌贁祿?增長(cháng)的速度有多快?許多人試圖測量出一個(gè)確切的數字。盡管測量的對象和方法有所不同,但他們都獲得了不同程度的成功。南加利福尼亞大學(xué)安嫩伯格通信學(xué)院的馬丁? 希爾伯特(MartinHilbert)進(jìn)行了一個(gè)比較全面的研究,他試圖得出人類(lèi)所創(chuàng )造、存儲和傳播的一切信息的確切數目。他的研究范圍不僅包括書(shū)籍、圖畫(huà)、電子郵件、照片、音樂(lè )、視頻(模擬和數字),還包括電子游戲、電話(huà)、汽車(chē)導航和信件。馬丁? 希爾伯特還以收視率和收聽(tīng)率為基礎,對電視、電臺這些廣播媒體進(jìn)行了研究。 有趣的是,在2007 年,只有7% 是存儲在報紙、書(shū)籍、圖片等媒介上的模擬數據,其余全部是數字數據。但在不久之前,情況卻完全不是這樣的。雖然1960 年就有了“信息時(shí)代”和“數字村鎮”的概念,但實(shí)際上,這些概念仍然是相當新穎的。甚至在2000 年的時(shí)候,數字存儲信息仍只占全球數據量的四分之一;當時(shí),另外四分之三的信息都存儲在報紙、膠片、黑膠唱片和盒式磁帶這類(lèi)媒介上。 早期數字信息的數量是不多的。對于長(cháng)期在網(wǎng)上沖浪和購書(shū)的人來(lái)說(shuō),那只是一個(gè)微小的部分。事實(shí)上,在1986 年的時(shí)候,世界上約40% 的計算機技術(shù)都被運用在便攜計算機上,那時(shí)候,所有個(gè)人電腦的處理能力之和都沒(méi)有便攜計算機高。但是因為數字數據的快速增長(cháng),整個(gè)局勢很快就顛倒過(guò)來(lái)了。按照希爾伯特的說(shuō)法,數字數據的數量每三年多就會(huì )翻一倍。相反,模擬數據的數量則基本上沒(méi)有增加。 事情真的在快速發(fā)展。人類(lèi)存儲信息量的增長(cháng)速度比世界經(jīng)濟的增長(cháng)速度快4 倍,而計算機數據處理能力的增長(cháng)速度則比世界經(jīng)濟的增長(cháng)速度快9倍。難怪人們會(huì )抱怨信息過(guò)量,因為每個(gè)人都受到了這種極速發(fā)展的沖擊。把眼光放遠一點(diǎn), 我們可以把時(shí)下的信息洪流與1439 年前后古登堡發(fā)明印刷機時(shí)造成的信息爆炸相對比。歷史學(xué)家伊麗莎白? 愛(ài)森斯坦(Elizabeth Eisenstein)發(fā)現,1453—1503 年,這50 年之間大約有800 萬(wàn)本書(shū)籍被印刷,比1 200 年之前君士坦丁堡建立以來(lái)整個(gè)歐洲所有的手抄書(shū)還要多。換言之,歐洲的信息存儲量花了50 年才增長(cháng)了一倍(當時(shí)的歐洲還占據了世界上大部分的信息存儲份額),而如今大約每三年就能增長(cháng)一倍。 這種增長(cháng)意味著(zhù)什么呢?彼特? 諾維格(Peter Norvig)是谷歌的人工智能專(zhuān)家,也曾任職于美國宇航局噴氣推進(jìn)實(shí)驗室,他喜歡把這種增長(cháng)與圖畫(huà)進(jìn)行類(lèi)比。首先,他要我們想想來(lái)自法國拉斯科洞穴壁畫(huà)上的標志性的馬。這些畫(huà)可以追溯到一萬(wàn)七千年之前的舊石器時(shí)代。然后,再想想一張馬的照片,想想畢加索的畫(huà)也可以,看起來(lái)和那些洞穴壁畫(huà)沒(méi)有多大的差別。事實(shí)上,畢加索看到那些洞穴壁畫(huà)的時(shí)候就曾開(kāi)玩笑說(shuō):“自那以后,我們就再也沒(méi)有創(chuàng )造出什么東西了! 他的話(huà)既正確又不完全正確。你回想一下壁畫(huà)上的那匹馬。當時(shí)要畫(huà)一幅馬的畫(huà)需要花費很久的時(shí)間,而現在不需要那么久了。這就是一種改變,雖然改變的可能不是最核心的部分——畢竟這仍然是一幅馬的圖像。但是諾維格說(shuō),想象一下,現在我們能每秒鐘播放24 幅不同形態(tài)的馬的圖片,這就是一種由量變導致的質(zhì)變:一部電影與一幅靜態(tài)的畫(huà)有本質(zhì)上的區別!大數據也一樣,量變導致質(zhì)變。物理學(xué)和生物學(xué)都告訴我們,當我們改變規模時(shí),事物的狀態(tài)有時(shí)也會(huì )發(fā)生改變。 有時(shí)候,我們認為約束我們生活的那些限制,對于世間萬(wàn)物都有著(zhù)同樣的約束力。事實(shí)上,盡管規律相同,但是我們能夠感受到的約束,很可能只對我們這樣尺度的事物起作用。對于人類(lèi)來(lái)說(shuō),唯一一個(gè)最重要的物理定律便是萬(wàn)有引力定律。這個(gè)定律無(wú)時(shí)無(wú)刻不在控制著(zhù)我們。但對于細小的昆蟲(chóng)來(lái)說(shuō),重力是無(wú)關(guān)緊要的。對它們而言,物理宇宙中有效的約束是地表張力,這個(gè)張力可以讓它們在水上自由行走而不會(huì )掉下去。但人類(lèi)對于地表張力毫不在意。 對于萬(wàn)有引力產(chǎn)生的約束效果而言,生物體的大小是非常重要的。類(lèi)似地,對于信息而言,規模也是非常重要的。谷歌能夠幾近完美地給出和基于大量真實(shí)病例信息所得到的流感情況一致的結果,而且幾乎是實(shí)時(shí)的,比疾控中心快多了。同樣,Farecast 可以預測機票價(jià)格的波動(dòng),從而讓消費者真正在經(jīng)濟上獲利。它們之所以如此給力,都因為存在供其分析的數千億記的數據項。 盡管我們仍處于大數據時(shí)代來(lái)臨的前夕,但我們的日常生活已經(jīng)離不開(kāi)它了。垃圾郵件過(guò)濾器可以自動(dòng)過(guò)濾垃圾郵件,盡管它并不知道“發(fā)# 票#銷(xiāo)# 售”是“發(fā)票銷(xiāo)售”的一種變體。交友網(wǎng)站根據個(gè)人的性格與之前成功配對的情侶之間的關(guān)聯(lián)來(lái)進(jìn)行新的配對。具有“自動(dòng)改正”功能的智能手機通過(guò)分析我們以前的輸入,將個(gè)性化的新單詞添加到手機詞典里。然而,對于這些數據的利用還僅僅只是一個(gè)開(kāi)始。從可以自動(dòng)轉彎和剎車(chē)的汽車(chē),到IBM 沃特森超級電腦在游戲節目《危險邊緣》(Jeopardy)中打敗人類(lèi)來(lái)看,這項技術(shù)終將會(huì )改變我們所居住的星球的許多東西!
第
1
2
3
4
5
6
7
8
頁(yè)
關(guān)于我們
|
版面設置
| 聯(lián)系我們 |
媒體刊例
|
友情鏈接
在线精品自偷自拍无码琪琪|国产普通话对白视频二区|巨爆乳肉感一区二区三区|久久精品无码专区免费东京热|亚洲中文色欧另类欧美