大數據時(shí)代已經(jīng)到來(lái)。這句話(huà)已經(jīng)被重復過(guò)無(wú)數次。先別忙著(zhù)進(jìn)行樂(lè )觀(guān)的展望,我們現在所談到大數據,其實(shí)幅度和深度都相當有限,大量信息被封鎖在信息孤島上。各級地方政府和各部委,自上世紀90年代起上馬了各自的電子政務(wù)工程,發(fā)展到現在,已實(shí)現基本的數據積累,各項業(yè)務(wù)辦理和機關(guān)運轉也切換到電子平臺上。但各項電子政務(wù)工程并未實(shí)現真正意義上的信息共享,跨部門(mén)調閱數據很多情況下需要部門(mén)或地方領(lǐng)導出面,就更談不上這些數據無(wú)障礙開(kāi)放給社會(huì )和企業(yè)了。
電子商務(wù)、金融、電信等行業(yè)的龍頭企業(yè),深耕大數據也很有成效,沉淀了大量的有效數據以及對于該企業(yè)價(jià)值不大,卻有著(zhù)較高社會(huì )應用價(jià)值的數據。這些信息和數據被認為是企業(yè)的核心資產(chǎn),企業(yè)在加大信息采集、數據挖掘分析的成本投入同時(shí),拒絕與其他企業(yè)、公共組織共享。
一些政府部門(mén)已經(jīng)意識到大數據的應用價(jià)值以及政府信息開(kāi)放的必要性,卻沒(méi)有予以響應,而是通過(guò)授權或直接建立數據企業(yè)的方式,將自己掌握的公共數據打包轉讓給這樣的企業(yè)經(jīng)營(yíng)。社會(huì )組織、企業(yè)、公民要想使用公共數據,就得為之付費。
孤島化的大數據,帶來(lái)的最突出問(wèn)題是數據采集分析的重復化,造成大量社會(huì )成本無(wú)謂消耗,也使得數據挖掘分析的水平長(cháng)期難以提高。根據有限數據所作的實(shí)時(shí)判斷和前瞻分析,很難避免細節甚至方向錯誤。對于創(chuàng )業(yè)者和初創(chuàng )企業(yè)來(lái)說(shuō),信息和數據采集的成本之高,常常超出他們的負擔能力,因而信息孤島造成的結果是抑制創(chuàng )新創(chuàng )業(yè),現有的創(chuàng )業(yè)者和企業(yè)也將盡可能避免在信息和數據采集上投入過(guò)多成本,將更主要的精力放在營(yíng)銷(xiāo)噱頭上。以大數據、云計算、智能設備為代表的新興科技產(chǎn)業(yè),美國的發(fā)展水平要超過(guò)我國,這顯然不僅跟美國的產(chǎn)業(yè)起步較早有關(guān),也源自美國的經(jīng)濟和社會(huì )數據開(kāi)放水平更為領(lǐng)先。
可以說(shuō),中國大數據發(fā)展已經(jīng)走到了一個(gè)重要關(guān)口,如果繼續延續現有的信息孤島局面,政府、企業(yè)、社會(huì )組織、科研機構各自為政,數據挖掘分析的水平還是會(huì )繼續提升,經(jīng)濟和社會(huì )應用價(jià)值也會(huì )體現,但必然因此滯后于美國等國家,且差距將也越來(lái)越大。與之相應的另一種選擇就是,積極推進(jìn)信息開(kāi)放、數據共享,實(shí)現數據資源的融合集聚,跟上大數據的發(fā)展潮流。
中信出版社最近出版了大數據戰略重點(diǎn)實(shí)驗室的智慧成果《塊數據》。這本書(shū)針對條塊分割“條數據”,提煉出一個(gè)對應的概念“塊數據”,即以開(kāi)放、共享、連接為特征的數據融合集聚機制,不但匯集了現有分隔化的大數據實(shí)體的數據資源,而且還借助智能設備、社交網(wǎng)絡(luò )擴張數據來(lái)源。塊數據圍繞人及其活動(dòng)而產(chǎn)生,不但要收集人的靜態(tài)數據,還要記錄人的行為活動(dòng)數據,還將記錄思想、意識和意愿數據。
書(shū)中第三章探討了塊數據的重要價(jià)值。首先,這將帶來(lái)新一輪商業(yè)革命。傳統產(chǎn)業(yè)將因此獲得轉型提升的最佳機會(huì ),創(chuàng )業(yè)者和初創(chuàng )企業(yè)的信息獲取成本被顯著(zhù)降低,現有的大數據企業(yè)也將通過(guò)更為全面、實(shí)時(shí)水平更高的數據提高數據挖掘分析特別是前瞻預測的水平。其次,塊數據將改善社會(huì )領(lǐng)域的社會(huì )服務(wù)、社會(huì )議題管理、社會(huì )組織運行水平,使這個(gè)領(lǐng)域內的組織和個(gè)人擺脫目前受限于信息劣勢的困境。第三,將推動(dòng)政府管治提升,書(shū)中提出,政府自身的“思考方式、行為方式和與民眾的互動(dòng)方式”都將因此升級換代。第四,形成崇尚誠信、分享、開(kāi)放的文化。
但要真正走出目前的“條數據”,走向塊數據,仍面臨著(zhù)諸多現實(shí)障礙。一是要改變數據生態(tài)系統和規則。無(wú)論在企業(yè)還是公共部門(mén),數據文化都以保密為導向,開(kāi)放是例外,要重塑數據文化的DNA,難度可想而知。而建立具體的數據分享規則和新的利益分配方式,也相當困難,比如,如何確保在數據挖掘分析上投入巨資的大企業(yè)在開(kāi)放數據后,能夠獲得合理回報,又同時(shí)兼顧中小企業(yè)的利益,等等。二是數據結構化挑戰壓力較大。海量數據多以非結構化形式體現,要予以利用需要更為先進(jìn)的數據分析技術(shù)和更科學(xué)的算法,這恰恰是中國企業(yè)的短板。三是塊數據的數據安全問(wèn)題和隱私安全問(wèn)題,重要性緊迫性也在凸顯。書(shū)中第六章提到的數據脫敏(數據保密、數據匿名化)可以有效解決數據安全和隱私安全問(wèn)題,但究竟哪些、什么樣的數據/隱私細節需要進(jìn)行脫敏處理,這方面的理念和規則還沒(méi)有統一。