中國靠什么在大數據時(shí)代勝出新華社—

　　數據本身是沒(méi)有偏好的科學(xué)工具。除非這個(gè)原本枯燥的工作被賦予了太多的利益內涵而又不受制約。簡(jiǎn)言之，數據就像是鐵面無(wú)私的法官，其公信力往往取決于數據生成全過(guò)程的抗干擾能力。

作者：涂子沛
出版：中信出版社

　　《數據之巔：大數據革命，歷史、現實(shí)與未來(lái)》是開(kāi)中國社會(huì )大數據之先河的徐子沛的第二本著(zhù)述，如果說(shuō)前一本開(kāi)創(chuàng )性的《大數據》引發(fā)了大數據戰略、數據治國和開(kāi)放數據的討論，“為華文世界開(kāi)創(chuàng )了一個(gè)重要話(huà)題”，那《數據之巔》則在追根溯源，追述小數據的歷史與大數據的崛起過(guò)程，著(zhù)重解析美國的實(shí)例，闡述歷史大架構下的數據文化以及數據治國理念的形成。歸根結底，作者是要提醒國人，當前信息技術(shù)的發(fā)展，已讓我國獲得了后發(fā)優(yōu)勢，但數據文化從來(lái)是中國文化的薄弱之處，想在大數據時(shí)代的全球競爭中勝出，必須把大數據從科技符號提升成為文化符號，在全社會(huì )倡導數據文化。

　　按徐子沛的看法，大數據時(shí)代是從本世紀10年代開(kāi)始的，標志著(zhù)人類(lèi)社會(huì )正在向智能社會(huì )轉型，但追述大數據的興起過(guò)程，卻要從小數據開(kāi)始。他選擇從美國的數據文化根基開(kāi)始講起，通過(guò)闡述初數時(shí)代、內戰時(shí)代、鍍金時(shí)代、進(jìn)步時(shí)代、抽樣時(shí)代的數據文化特征，以數據分權、人口普查、土地丈量、數據遠征、數據審判等歷史事件為主線(xiàn)、系統梳理了美國數據文化的形成，闡述其數據治國之道。

　　無(wú)論是開(kāi)國總統華盛頓，還是打贏(yíng)南北戰爭的林肯，都高度重視統計。因“羅斯福新政”聞名于世的美國第31任總統富蘭克林·德拉諾·羅斯福更是“首倡要在公共政策的制定過(guò)程當中應用統計學(xué)的理論和方法”。高度重視統計，表明一個(gè)政府對收集社會(huì )各方面信息的科學(xué)性，此舉也必定有助于決策的科學(xué)性。

　　但是，現實(shí)發(fā)展不可能總是自然走向好的一面。對數據越是高度重視，越不可避免地會(huì )遇到一個(gè)常識性的“技術(shù)”問(wèn)題，即數據的準確性。數據是否準確主要取決于兩大方面，一是統計標準的確立，二是統計過(guò)程的嚴謹。相較于后者，前者相對較為容易。之所以這么說(shuō)，是因為統計過(guò)程的嚴謹與否，往往取決于統計人員的素質(zhì)以及相關(guān)制衡機制。很難想象，一個(gè)統計工作人員如果受到工作之外的強力干擾，仍會(huì )謹守數據的準確性。而如果缺乏外在有效監督制約力量，統計很難不會(huì )朝向“趨利避害”的方向逐漸扭曲。這也就是說(shuō)，統計做的是數字的工作，但歸根結底還是取決于人的素質(zhì)，還有良好機制等系統機制的約束。

　　美國的數據權威之所以能夠得到較好的保證，拋開(kāi)數屆政府堅持確立科學(xué)的統計標準外，還在于整個(gè)社會(huì )對統計數據的真實(shí)性和科學(xué)性存在諸多制衡機制，比如公開(kāi)和辯論。公開(kāi)，本身就是社會(huì )對統計工作監督的重要內容之一，其中又以輿論監督為最。在強大的輿論監督壓力下，統計瑕疵一旦被曝光，輕則被質(zhì)疑，重則可能引發(fā)官場(chǎng)地震。二百多年來(lái)，美國輿論對各類(lèi)數據始終保持著(zhù)習慣性“虎視眈眈”傳統，絕大多數媒體還會(huì )通過(guò)民意調查等方式，從“民間”角度反證官方數據的準確性與合理性。當然，這種“民間發(fā)聲”也會(huì )被一些見(jiàn)風(fēng)使舵的政客所利用，一些美國總統精于踩著(zhù)民意統計步點(diǎn)，及時(shí)派“糖”以保個(gè)的支持率的實(shí)例屢見(jiàn)不鮮。不過(guò)，徐子沛并不認為這就是數據不可饒恕之積蔽，而是數據未來(lái)發(fā)展有必要努力克服的方向。

　　公開(kāi)數據，還是遏制特權的有效手段。在1843年前，美國“各地的執法官為了提高（人口普查）數據的準確性，在普查完成之后，還在城市、村莊的顯要位置張貼普查結果，號召民眾補充和核對”。盡管后來(lái)出于隱私保護的考慮，對有關(guān)統計信息都有所遮蔽，但“國會(huì )的議員必須每年公開(kāi)自己的財產(chǎn)情況，包括各類(lèi)股票的數量和交易明細”卻一點(diǎn)不通融。奧巴馬就任總統后，“從上任的第一天起，他就在全國范圍內推動(dòng)數據開(kāi)放運動(dòng)”。數據公開(kāi)力度，某種意義上也折射出一個(gè)社會(huì )的清廉度。

　　僅僅公開(kāi)當然是不夠的，因為有的數據不是公開(kāi)后便可一目了然，這就需要專(zhuān)業(yè)人士的深入研究乃至充分爭論�！霸趪鴷�(huì )的聽(tīng)證會(huì )上，每一個(gè)數據如果稍有含糊，每一個(gè)邏輯推理的鏈條如果斷裂，都有可能被虎視眈眈的競爭對手揪出來(lái)，受到質(zhì)疑和挑戰”。也只有經(jīng)常性地面臨被質(zhì)疑的強大壓力，才可能確保數據的生成過(guò)程始終嚴謹。

　　分析數據，就是為了從數字中尋找可能的規律。一個(gè)過(guò)硬的數據體系，更有益于決策的造福于社會(huì )。數據不僅在美國政界大量開(kāi)花結果，民間同樣收獲頗豐。如蓋洛普公司憑借“科學(xué)抽樣”不僅成功預測數屆總統人選，還為好萊塢電影《亂世佳人》提供全程指導并大獲成功。而被譽(yù)為“質(zhì)量管理之父”的愛(ài)德華·戴明通過(guò)抽樣檢查實(shí)現對產(chǎn)品質(zhì)量的控制，還推動(dòng)了日本制造業(yè)在短時(shí)間內的質(zhì)量騰飛。

　　歷史學(xué)家黃仁宇在《萬(wàn)歷十五年》中有過(guò)一個(gè)著(zhù)名論斷：中國人不善于用數目字管理，對古幣存世量的討論，大多含糊其辭。近幾十年來(lái)，情況有了較大改變。1983年我國出臺了首部《統計法》，現在施行的《統計法》歷經(jīng)1996年和2009年兩次修訂。社會(huì )各方越來(lái)越重視分析比較各類(lèi)統計數據。不過(guò)，現實(shí)表明，我們的統計工作仍有大力提升的空間。順舉一例，據報，2013年全國31省區市的GDP之和約為63萬(wàn)億，這個(gè)數據超出了全國GDP總量逾6.1萬(wàn)億。事實(shí)上，像這樣巨大的統計“誤差”絕非孤例。出現這類(lèi)統計誤差，原因不外乎兩個(gè)，一是統計標準不一，比如未能有效厘清對央企等特殊企業(yè)特殊行業(yè)的統計內容；二是統計中摻有政績(jì)“水分”，這也是導致統計巨大“誤差”的重要原因。2002年，國務(wù)院前總理朱镕基為國家會(huì )計學(xué)院題寫(xiě)校訓“不做假賬”，這無(wú)疑是對數字工作者的巨大鞭策。然而，在多年來(lái)的“唯GDP”崇拜下，扭轉數字出政績(jì)的歷史慣性不僅需要智慧，恐怕還更需要“橫刀立馬”的勇氣。

　　隨著(zhù)科學(xué)技術(shù)的飛速發(fā)展，特別隨著(zhù)社交媒體的普及，每個(gè)網(wǎng)民在不知不覺(jué)中都變成了數據生產(chǎn)者。網(wǎng)民上網(wǎng)的過(guò)程，同時(shí)也是數據處理的過(guò)程，每個(gè)網(wǎng)民無(wú)形中變成了一臺臺數據處理器，所不同的是處理標差和側重點(diǎn)的不同�！皬目萍挤栄葑�?yōu)槲幕�，形成一種文化話(huà)語(yǔ)體系，大數據，正在撬動(dòng)中國的制度創(chuàng )新、科技創(chuàng )新”�，F在的問(wèn)題是，面對海量的數字謎團，我們該如何從中尋找可能的內在規律？