●得大數據者得天下,是一些推崇大數據時(shí)代的變革者堅信不疑的判斷。很多專(zhuān)家認為,在大數據時(shí)代,誰(shuí)能有效地壟斷數據,誰(shuí)就有可能成為世界霸主。
●2009年爆發(fā)甲型H1N1流感病毒時(shí),谷歌公司就是通過(guò)觀(guān)察人們在網(wǎng)上搜索的大量記錄,在流感爆發(fā)幾周前,就判斷出流感是從哪里傳播出來(lái)的。
●大數據及其分析,將會(huì )在未來(lái)10年改變幾乎每一個(gè)行業(yè)的業(yè)務(wù)功能。根據麥肯錫預測,如果具備相關(guān)的IT設施、數據庫投資和分析能力等條件,大數據將在未來(lái)10年,使美國醫療市場(chǎng)獲得每年3000億美元的新價(jià)值。
2012年3月,美國奧巴馬政府發(fā)起了《大數據研究和發(fā)展倡議》,將大數據定義為“未來(lái)的新石油”,稱(chēng)將斥資2億美元用于大數據研究,以應對大數據革命正在帶來(lái)的大機遇。據美國咨詢(xún)機構Gartner預測,從現在起到2015年,大數據將會(huì )在世界范圍內創(chuàng )造440萬(wàn)個(gè)工作崗位。
“大數據”,這一新興概念,正在被賦予極其豐富的內涵,并被寄予特別巨大的希望……大數據時(shí)代,我們該如何尋找對策,迎接挑戰?
人類(lèi)正在邁入大數據時(shí)代
關(guān)于“大數據(Big Data)”,麥肯錫全球研究所在報告《大數據:創(chuàng )新、競爭和生產(chǎn)力的下一個(gè)前沿》中定義:大數據,是指大小超出了傳統數據庫軟件工具的抓取、存儲、管理和分析能力的數據群。也有專(zhuān)家認為,大數據的“大”是指大型數據集,即數據量一般在10TB規模左右;多個(gè)用戶(hù)把多個(gè)數據集放在一起,形成PB級的數據量;同時(shí),這些數據又來(lái)自多種數據源,并以實(shí)時(shí)、迭代的方式來(lái)實(shí)現,即“大數據=海量數據+復雜類(lèi)型的數據”。
我們正處在一個(gè)數據爆發(fā)增長(cháng)的時(shí)代。移動(dòng)互聯(lián)網(wǎng)、移動(dòng)終端和數據感應器的出現,使數據以超出人們想象的速度在快速增長(cháng)。據國際數據資訊公司(Global Pulse)估測,數據數量一直在快速增加,每年增長(cháng)50%,這個(gè)速度不僅是指數據流的增長(cháng),而且還包括全新的數據種類(lèi)的增多。據統計,全球企業(yè)2010年在硬盤(pán)上存儲了超過(guò)7EB的新數據,消費者在PC和筆記本電腦等設備上存儲了超過(guò)6EB新數據,而1EB數據就相當于美國國會(huì )圖書(shū)館中存儲數據的4000多倍。目前數據容量增長(cháng)的速度,已經(jīng)大大超過(guò)了硬件技術(shù)的發(fā)展速度,并正在引發(fā)數據存儲和處理的危機。
有研究統計,從人類(lèi)文明開(kāi)始到2003年,人類(lèi)共創(chuàng )造了5TB(兆億字節)的信息。而現在,這樣的數據量卻僅需兩天就能夠被創(chuàng )造出來(lái),且速度仍在加快。數據顯示,2011年全球創(chuàng )建和復制的數據總量,就達到了1.8ZB(1ZB等于10的21次方比特),相當于全球每人產(chǎn)生300GB以上的數據。目前這個(gè)數字仍在快速增長(cháng),預計2020年,全球產(chǎn)生的數據量更將超過(guò)80ZB。由此可見(jiàn),我們的確已經(jīng)邁入了大數據時(shí)代。
世界各國加緊大數據布局
世界上許多國家都已經(jīng)認識到了大數據所蘊含的重要戰略意義,紛紛開(kāi)始在國家層面進(jìn)行戰略部署,以迎接大數據技術(shù)革命,正在帶來(lái)的新機遇和新挑戰。
美國在《大數據研究和發(fā)展倡議》中,提出將通過(guò)收集龐大而復雜的數字資料,從中獲得知識和洞見(jiàn),以提升能力。并協(xié)助加速在科學(xué)、工程上發(fā)現的步伐,強化美國國土安全,轉變教育和學(xué)習模式。根據這一計劃,美國希望利用大數據技術(shù)實(shí)現在多個(gè)領(lǐng)域的突破,包括科研教學(xué)、環(huán)境保護、工程技術(shù)、國土安全、生物醫藥等。其中具體的研發(fā)計劃涉及了美國國家科學(xué)基金會(huì )、國家衛生研究院、國防部、能源部、國防部高級研究局、地質(zhì)勘探局等6個(gè)聯(lián)邦部門(mén)和機構。
英國政府2012年計劃在未來(lái)兩年內,在大數據和節能計算研究上投資1.89億英鎊,以帶動(dòng)企業(yè)在該領(lǐng)域的投資。大數據被英國看作是自己的優(yōu)勢所在,且英國認為已在政府層面,為大數據做好了準備。
法國政府宣布將在2013年投入1150萬(wàn)歐元,用于7個(gè)大數據市場(chǎng)研發(fā)項目。目的在于“通過(guò)發(fā)展創(chuàng )新性解決方案,并將其用于實(shí)踐,來(lái)促進(jìn)法國在大數據領(lǐng)域的發(fā)展!狈▏凇稊底只肪(xiàn)圖》中列出了五項將大力支持的戰略性高新技術(shù),“大數據”就是其中一項。
日本在2012新一輪IT振興計劃中,將發(fā)展大數據作為國家戰略層面提出,重點(diǎn)關(guān)注大數據應用技術(shù),如社會(huì )化媒體等智能技術(shù)的開(kāi)發(fā)、新醫療技術(shù)的開(kāi)發(fā)、以及交通擁堵治理等公共領(lǐng)域的應用。
此外,加拿大、新西蘭、德國和印度等國也在大數據領(lǐng)域進(jìn)行了研究部署,還紛紛推出本國的公共數據開(kāi)放網(wǎng)站,以使更多的人可以使用大數據資源,并從中獲得利益。目前,全球已經(jīng)擁有大大小小的數據開(kāi)放網(wǎng)站50余個(gè)。
大數據將給世界帶來(lái)巨大沖擊
“大數據資源”成為重要戰略資源
互聯(lián)網(wǎng)時(shí)代,“資源”的含義正在發(fā)生極大的變化,它已不再僅僅只是指煤、石油、礦產(chǎn)等一些看得見(jiàn)、摸得著(zhù)的實(shí)體,“大數據”,也正在演變成不可或缺的戰略資源;ヂ(lián)網(wǎng)、物聯(lián)網(wǎng)每天都在產(chǎn)生大量的數據,這些龐大的數據資源,為人們依據數據了解世界、了解市場(chǎng)、了解人們的生活提供了可能。大數據已經(jīng)被視為一種資產(chǎn)、一種財富、一種可以被衡量和計算的價(jià)值。得大數據者得天下,是一些推崇大數據時(shí)代的變革者所堅信不疑的判斷。
很多專(zhuān)家認為,在大數據時(shí)代,誰(shuí)能有效的壟斷數據,誰(shuí)就有可能成為世界的霸主。2006年,微軟以1.1億美元的價(jià)格,購買(mǎi)了大數據公司Farecast。2008年,谷歌則以7億美元的價(jià)格,購買(mǎi)了為Farecast提供數據的ITA Software公司。
“大數據安全”上升為國家安全
傳統意義上的國家安全,是指軍隊對國家領(lǐng)土安全的保護,是國家之間軍事實(shí)力的較量。但在互聯(lián)網(wǎng)高度發(fā)達的大數據時(shí)代,網(wǎng)絡(luò )變成了幾乎是透明的虛擬世界,也因此使國家安全的環(huán)境和內涵發(fā)生了極大的變化,對大數據的安全保存、防丟失和防破壞等問(wèn)題,成為我們必須要面對的安全難題。大數據安全,已經(jīng)上升成為國家安全的重要組成部分!
在大數據時(shí)代,數據安全的威脅隨時(shí)都有可能發(fā)生。各種國家信息基礎設施和重要機構所承載著(zhù)的龐大數據信息,如由信息網(wǎng)絡(luò )系統所控制的石油和天然氣管道、水、電力、交通、銀行、金融、商業(yè)和軍事等,都有可能成為被攻擊的目標。
此外,大數據也為網(wǎng)絡(luò )恐怖分子提供了新的資源支持,有可能使恐怖分子通過(guò)網(wǎng)絡(luò )侵入到人們工作生活的方方面面,并通過(guò)威脅、攻擊、破壞,癱瘓民用或軍事基礎設施等手段,達到其制造心理恐慌和財產(chǎn)損失,威脅國家安全和社會(huì )安全的目的。
“大數據決策”成為一種新決策方式
依據大數據進(jìn)行決策,從數據中獲取價(jià)值,讓數據主導決策,是一種前所未有的決策方式,并正在推動(dòng)著(zhù)人類(lèi)信息管理準則的重新定位。隨著(zhù)大數據分析和預測性分析對管理決策影響力的逐漸加大,依靠直覺(jué)做決定的狀況將會(huì )被徹底改變。
2009年爆發(fā)的甲型H1N1流感病毒,谷歌公司就是通過(guò)觀(guān)察人們在網(wǎng)上搜索的大量記錄,在流感爆發(fā)的幾周前,就判斷出流感是從哪里傳播出來(lái)的,從而使公共衛生機構的官員獲得了極有價(jià)值的數據信息,并做出有針對性的行動(dòng)決策,而這比疾控中心的判斷,提前了一兩周。美國的Farecast系統,它的一個(gè)功能就是飛機票價(jià)預測,它通過(guò)從旅游網(wǎng)站獲得的大量數據,分析41天之內的12000個(gè)價(jià)格樣本,分析所有特定航線(xiàn)機票的銷(xiāo)售價(jià)格,并預測出當前機票價(jià)格在未來(lái)一段時(shí)間內的漲降走勢,從而幫助虛擬乘客選擇最佳的購票時(shí)機,并降低可觀(guān)的購票成本。
“大數據應用”促進(jìn)信息技術(shù)與各行業(yè)深度融合
有專(zhuān)家指出,大數據及其分析,將會(huì )在未來(lái)10年改變幾乎每一個(gè)行業(yè)的業(yè)務(wù)功能。從科學(xué)研究到醫療保險,從銀行業(yè)到互聯(lián)網(wǎng),各個(gè)不同的領(lǐng)域都在遭遇爆發(fā)式增長(cháng)的數據量。在美國的17個(gè)行業(yè)中,已經(jīng)有15個(gè)行業(yè)大公司擁有大量的數據,其平均擁有的數據量已經(jīng)遠遠超過(guò)了美國國會(huì )圖書(shū)館所擁有的數據量。
在醫療與健康行業(yè),根據麥肯錫預測,如果具備相關(guān)的IT設施、數據庫投資和分析能力等條件,大數據將在未來(lái)10年,使美國醫療市場(chǎng)獲得每年3000億美元的新價(jià)值,并削減2/3的全國醫療開(kāi)支。
在制造業(yè)領(lǐng)域,制造企業(yè)為管理產(chǎn)品生命周期將采用IT系統,包括電腦輔助設計、工程、制造、產(chǎn)品開(kāi)發(fā)管理工具和數字制造,制造商可以建立一個(gè)產(chǎn)品生命周期管理平臺PLM(Product Lifecycle Management),從而將多種系統的數據集整合在一起,共同創(chuàng )造出新的產(chǎn)品。
此外,在交通、能源、材料、商業(yè)和服務(wù)等行業(yè)領(lǐng)域,甚至在新聞傳媒領(lǐng)域,也都在以大數據為發(fā)展契機,加速這些行業(yè)與信息技術(shù)的深度融合。
“大數據開(kāi)發(fā)”推動(dòng)新技術(shù)和新應用不斷涌現
大數據的應用需求,是大數據新技術(shù)開(kāi)發(fā)的源泉。在不久的將來(lái),也許很多原來(lái)單純依靠人類(lèi)自身判斷力的領(lǐng)域應用,最終都將被計算機系統的數據分析和數據挖掘功能,所普遍改變甚至取代。一小片合適的信息,也許會(huì )促使創(chuàng )新邁進(jìn)一大步;一組數據,也可能會(huì )得到數據收集人難以想象的應用,甚至可能在另一個(gè)看起來(lái)毫不相關(guān)的領(lǐng)域得到應用。借助這些創(chuàng )新型的大數據應用,數據的能量將會(huì )層層被放大。
“語(yǔ)義網(wǎng)(Semantic Web)”,也稱(chēng)為下一代互聯(lián)網(wǎng),實(shí)際上就是“數據網(wǎng)”(Web of Data)。語(yǔ)義網(wǎng)是一個(gè)全球的數據庫網(wǎng),在這個(gè)數據庫網(wǎng)中,計算機可自動(dòng)為用戶(hù)搜尋、檢索和集成網(wǎng)上的信息,而不再需要搜索引擎。大數據時(shí)代正在催生的這個(gè)最大的技術(shù)變革,就是要重新構造互聯(lián)網(wǎng),打造出下一代互聯(lián)網(wǎng)。
數據安全管理是最大風(fēng)險
大數據時(shí)代的來(lái)臨,對中國來(lái)說(shuō)面臨安全管理能力、存儲及處理能力、應用能力和人才培養能力等多方面的新挑戰。
大數據的安全管理能力挑戰。數據安全管理問(wèn)題,是我國應用大數據面臨的最大風(fēng)險。雖然將海量數據集中存儲,方便了數據分析和處理,但由于安全管理不當所造成的大數據丟失和損壞,則將引發(fā)毀滅性的災難。有專(zhuān)家指出:由于新技術(shù)的產(chǎn)生和發(fā)展,對隱私權的侵犯已經(jīng)不再需要物理的、強制性的侵入,而是以更加微妙的方式廣泛衍生,由此所引發(fā)的數據風(fēng)險和隱私風(fēng)險,也將更為嚴重。
當前,我國對大數據的保護能力還十分有限,數據被惡意使用的現象仍然難以掌控。我國個(gè)人和企業(yè)對于數據資源的保護意識,還比較薄弱。隨著(zhù)電子商務(wù)、社交網(wǎng)絡(luò )、物聯(lián)網(wǎng)、云計算、以及移動(dòng)互聯(lián)網(wǎng)的全面普及,我國數據資源與全球的數據資源一樣,正在呈現爆發(fā)性、多樣性的增長(cháng)態(tài)勢。但是,由于對數據保護認識的不足,以及對個(gè)人電腦安全防護的不當,個(gè)人或企業(yè)的隱私數據暴露在互聯(lián)網(wǎng)上的現象十分普遍。2011年,我國最大程序員網(wǎng)站的600萬(wàn)個(gè)人信息和郵箱密碼被黑客公開(kāi),進(jìn)而引發(fā)了連鎖的泄密事件。2013年,中國人壽80萬(wàn)客戶(hù)的個(gè)人保單信息發(fā)現被泄露。這些事件都凸顯出在大數據時(shí)代,信息安全管理所面臨的、前所未有的挑戰。
大數據的存儲及處理能力挑戰。當前,我國大數據存儲、分析和處理的能力還很薄弱,與大數據相關(guān)的技術(shù)和工具的運用也相當不成熟,大部分企業(yè)仍處于IT產(chǎn)業(yè)鏈的低端。我國在數據庫、數據倉庫、數據挖掘以及云計算等領(lǐng)域的技術(shù),普遍落后于國外先進(jìn)水平。
在大數據存儲方面,數據的爆炸式增長(cháng),數據來(lái)源的極其豐富和數據類(lèi)型的多種多樣,使數據存儲量更龐大,對數據展現的要求更高。而目前我國傳統的數據庫,還難以存儲如此巨大的數據量。在大數據的分析處理方面,由于針對具體的應用類(lèi)型,需要采用不同的處理方式,因此必須通過(guò)建立高級大數據的分析模型,來(lái)實(shí)現快速抽取大數據的核心數據、高效分析這些核心數據并從中發(fā)現價(jià)值,而這些數據分析能力我國還很欠缺。
因此,如何提高我國對大數據資源的存儲和整合能力,實(shí)現從大數據中發(fā)現、挖掘出有價(jià)值的信息和知識,是當前我國大數據存儲和處理所面臨的挑戰。
大數據的應用能力挑戰。我國擁有龐大的人口資源和大數據應用市場(chǎng),市場(chǎng)復雜度高且變化多端,使我國成為世界上最復雜的大數據國家。我國互聯(lián)網(wǎng)用戶(hù),通過(guò)利用互聯(lián)網(wǎng)上的海量數據來(lái)提升自身的商業(yè)價(jià)值和科研價(jià)值。我國企業(yè)用戶(hù),也已積累了大量的數據信息資產(chǎn),如產(chǎn)品數據、運營(yíng)數據和價(jià)值鏈數據等。隨著(zhù)我國企業(yè)信息化系統的深入部署和逐步完善,大數據應用能力所引發(fā)的商業(yè)模式的改變,將直接影響我國企業(yè)的競爭能力。
在政府決策方面,當前我國政府部門(mén)的數據規模還很小,多數仍集中在對結構化數據的應用上,而對于非結構化數據的利用則幾乎為空白。利用數據分析來(lái)支撐政府決策,我國做得還很不夠。從認識到“大數據能產(chǎn)生價(jià)值”,到實(shí)現了“從大數據中找到價(jià)值”,再到“有效使用大數據產(chǎn)生的價(jià)值”,政府目前也只是剛剛起步。當前,如何收集數據、使用數據、開(kāi)放數據、管理數據和利用數據來(lái)支撐決策,是我國面臨的又一新挑戰。
大數據的人才培養能力挑戰。大數據領(lǐng)域技術(shù)人才和商業(yè)人才的缺乏,是一個(gè)全球性的問(wèn)題。根據麥肯錫的一項研究顯示,僅美國每年就有14萬(wàn)到19萬(wàn)名數據科學(xué)家的缺口,預計到2018年將達到44萬(wàn)到49萬(wàn),而數據科學(xué)家則更是嚴重缺乏。
我國大數據分析專(zhuān)業(yè)人才缺口究竟有多大,有專(zhuān)家粗略估算至少需要100萬(wàn)人。當前,具備綜合掌控數學(xué)、統計學(xué)、機器學(xué)習等方面知識的復合型人才,同時(shí)又可承擔數據分析和數據挖掘的數據科學(xué)家,在我國尤為奇缺。目前,我國初級的分析人員只能對數據進(jìn)行簡(jiǎn)單的報表和進(jìn)行描述性分析,而隨著(zhù)未來(lái)大數據應用的不斷增長(cháng),我國大數據人才儲備不足的問(wèn)題將更加嚴重。因此,培養能夠解決大數據問(wèn)題所需的人才,包括培養大數據分析人才和管理人才,是我們需要面對的又一緊迫問(wèn)題。