數據本身是沒(méi)有偏好的科學(xué)工具。除非這個(gè)原本枯燥的工作被賦予了太多的利益內涵而又不受制約。簡(jiǎn)言之,數據就像是鐵面無(wú)私的法官,其公信力往往取決于數據生成全過(guò)程的抗干擾能力。
 |
作者:涂子沛 出版:中信出版社 |
《數據之巔:大數據革命,歷史、現實(shí)與未來(lái)》是開(kāi)中國社會(huì )大數據之先河的徐子沛的第二本著(zhù)述,如果說(shuō)前一本開(kāi)創(chuàng )性的《大數據》引發(fā)了大數據戰略、數據治國和開(kāi)放數據的討論,“為華文世界開(kāi)創(chuàng )了一個(gè)重要話(huà)題”,那《數據之巔》則在追根溯源,追述小數據的歷史與大數據的崛起過(guò)程,著(zhù)重解析美國的實(shí)例,闡述歷史大架構下的數據文化以及數據治國理念的形成。歸根結底,作者是要提醒國人,當前信息技術(shù)的發(fā)展,已讓我國獲得了后發(fā)優(yōu)勢,但數據文化從來(lái)是中國文化的薄弱之處,想在大數據時(shí)代的全球競爭中勝出,必須把大數據從科技符號提升成為文化符號,在全社會(huì )倡導數據文化。
按徐子沛的看法,大數據時(shí)代是從本世紀10年代開(kāi)始的,標志著(zhù)人類(lèi)社會(huì )正在向智能社會(huì )轉型,但追述大數據的興起過(guò)程,卻要從小數據開(kāi)始。他選擇從美國的數據文化根基開(kāi)始講起,通過(guò)闡述初數時(shí)代、內戰時(shí)代、鍍金時(shí)代、進(jìn)步時(shí)代、抽樣時(shí)代的數據文化特征,以數據分權、人口普查、土地丈量、數據遠征、數據審判等歷史事件為主線(xiàn)、系統梳理了美國數據文化的形成,闡述其數據治國之道。
無(wú)論是開(kāi)國總統華盛頓,還是打贏(yíng)南北戰爭的林肯,都高度重視統計。因“羅斯福新政”聞名于世的美國第31任總統富蘭克林·德拉諾·羅斯福更是“首倡要在公共政策的制定過(guò)程當中應用統計學(xué)的理論和方法”。高度重視統計,表明一個(gè)政府對收集社會(huì )各方面信息的科學(xué)性,此舉也必定有助于決策的科學(xué)性。
但是,現實(shí)發(fā)展不可能總是自然走向好的一面。對數據越是高度重視,越不可避免地會(huì )遇到一個(gè)常識性的“技術(shù)”問(wèn)題,即數據的準確性。數據是否準確主要取決于兩大方面,一是統計標準的確立,二是統計過(guò)程的嚴謹。相較于后者,前者相對較為容易。之所以這么說(shuō),是因為統計過(guò)程的嚴謹與否,往往取決于統計人員的素質(zhì)以及相關(guān)制衡機制。很難想象,一個(gè)統計工作人員如果受到工作之外的強力干擾,仍會(huì )謹守數據的準確性。而如果缺乏外在有效監督制約力量,統計很難不會(huì )朝向“趨利避害”的方向逐漸扭曲。這也就是說(shuō),統計做的是數字的工作,但歸根結底還是取決于人的素質(zhì),還有良好機制等系統機制的約束。
美國的數據權威之所以能夠得到較好的保證,拋開(kāi)數屆政府堅持確立科學(xué)的統計標準外,還在于整個(gè)社會(huì )對統計數據的真實(shí)性和科學(xué)性存在諸多制衡機制,比如公開(kāi)和辯論。公開(kāi),本身就是社會(huì )對統計工作監督的重要內容之一,其中又以輿論監督為最。在強大的輿論監督壓力下,統計瑕疵一旦被曝光,輕則被質(zhì)疑,重則可能引發(fā)官場(chǎng)地震。二百多年來(lái),美國輿論對各類(lèi)數據始終保持著(zhù)習慣性“虎視眈眈”傳統,絕大多數媒體還會(huì )通過(guò)民意調查等方式,從“民間”角度反證官方數據的準確性與合理性。當然,這種“民間發(fā)聲”也會(huì )被一些見(jiàn)風(fēng)使舵的政客所利用,一些美國總統精于踩著(zhù)民意統計步點(diǎn),及時(shí)派“糖”以保個(gè)的支持率的實(shí)例屢見(jiàn)不鮮。不過(guò),徐子沛并不認為這就是數據不可饒恕之積蔽,而是數據未來(lái)發(fā)展有必要努力克服的方向。
公開(kāi)數據,還是遏制特權的有效手段。在1843年前,美國“各地的執法官為了提高(人口普查)數據的準確性,在普查完成之后,還在城市、村莊的顯要位置張貼普查結果,號召民眾補充和核對”。盡管后來(lái)出于隱私保護的考慮,對有關(guān)統計信息都有所遮蔽,但“國會(huì )的議員必須每年公開(kāi)自己的財產(chǎn)情況,包括各類(lèi)股票的數量和交易明細”卻一點(diǎn)不通融。奧巴馬就任總統后,“從上任的第一天起,他就在全國范圍內推動(dòng)數據開(kāi)放運動(dòng)”。數據公開(kāi)力度,某種意義上也折射出一個(gè)社會(huì )的清廉度。
僅僅公開(kāi)當然是不夠的,因為有的數據不是公開(kāi)后便可一目了然,這就需要專(zhuān)業(yè)人士的深入研究乃至充分爭論!霸趪鴷(huì )的聽(tīng)證會(huì )上,每一個(gè)數據如果稍有含糊,每一個(gè)邏輯推理的鏈條如果斷裂,都有可能被虎視眈眈的競爭對手揪出來(lái),受到質(zhì)疑和挑戰”。也只有經(jīng)常性地面臨被質(zhì)疑的強大壓力,才可能確保數據的生成過(guò)程始終嚴謹。
分析數據,就是為了從數字中尋找可能的規律。一個(gè)過(guò)硬的數據體系,更有益于決策的造福于社會(huì )。數據不僅在美國政界大量開(kāi)花結果,民間同樣收獲頗豐。如蓋洛普公司憑借“科學(xué)抽樣”不僅成功預測數屆總統人選,還為好萊塢電影《亂世佳人》提供全程指導并大獲成功。而被譽(yù)為“質(zhì)量管理之父”的愛(ài)德華·戴明通過(guò)抽樣檢查實(shí)現對產(chǎn)品質(zhì)量的控制,還推動(dòng)了日本制造業(yè)在短時(shí)間內的質(zhì)量騰飛。
歷史學(xué)家黃仁宇在《萬(wàn)歷十五年》中有過(guò)一個(gè)著(zhù)名論斷:中國人不善于用數目字管理,對古幣存世量的討論,大多含糊其辭。近幾十年來(lái),情況有了較大改變。1983年我國出臺了首部《統計法》,現在施行的《統計法》歷經(jīng)1996年和2009年兩次修訂。社會(huì )各方越來(lái)越重視分析比較各類(lèi)統計數據。不過(guò),現實(shí)表明,我們的統計工作仍有大力提升的空間。順舉一例,據報,2013年全國31省區市的GDP之和約為63萬(wàn)億,這個(gè)數據超出了全國GDP總量逾6.1萬(wàn)億。事實(shí)上,像這樣巨大的統計“誤差”絕非孤例。出現這類(lèi)統計誤差,原因不外乎兩個(gè),一是統計標準不一,比如未能有效厘清對央企等特殊企業(yè)特殊行業(yè)的統計內容;二是統計中摻有政績(jì)“水分”,這也是導致統計巨大“誤差”的重要原因。2002年,國務(wù)院前總理朱镕基為國家會(huì )計學(xué)院題寫(xiě)校訓“不做假賬”,這無(wú)疑是對數字工作者的巨大鞭策。然而,在多年來(lái)的“唯GDP”崇拜下,扭轉數字出政績(jì)的歷史慣性不僅需要智慧,恐怕還更需要“橫刀立馬”的勇氣。
數據本身是沒(méi)有偏好的科學(xué)工具。除非這個(gè)原本枯燥的工作被賦予了太多的利益內涵而又不受制約。簡(jiǎn)言之,數據就像是鐵面無(wú)私的法官,其公信力往往取決于數據生成全過(guò)程的抗干擾能力。
隨著(zhù)科學(xué)技術(shù)的飛速發(fā)展,特別隨著(zhù)社交媒體的普及,每個(gè)網(wǎng)民在不知不覺(jué)中都變成了數據生產(chǎn)者。網(wǎng)民上網(wǎng)的過(guò)程,同時(shí)也是數據處理的過(guò)程,每個(gè)網(wǎng)民無(wú)形中變成了一臺臺數據處理器,所不同的是處理標差和側重點(diǎn)的不同!皬目萍挤栄葑?yōu)槲幕,形成一種文化話(huà)語(yǔ)體系,大數據,正在撬動(dòng)中國的制度創(chuàng )新、科技創(chuàng )新”,F在的問(wèn)題是,面對海量的數字謎團,我們該如何從中尋找可能的內在規律?