編者:2012年底問(wèn)世的《大數據時(shí)代:生活、工作與思維的大變革》,以一個(gè)帶有預見(jiàn)性的新概念,引起全球熱議,至今仍居各大圖書(shū)排行榜前位,作者維克托·邁爾—舍恩伯格也因之被譽(yù)為“大數據時(shí)代的預言家”。輿論認為,“大數據”顛覆了千百年來(lái)人類(lèi)的思維慣例,對人類(lèi)的認知和與世界的交流方式提出了全新的挑戰。同時(shí),因“大數據”理論引發(fā)的激辯和質(zhì)疑也絡(luò )繹不絕……
近日,美國兩本著(zhù)名學(xué)術(shù)雜志同時(shí)關(guān)注大數據話(huà)題:《外交》雜志5/6月刊將《大數據的興起》一文作為封面文章,認為大數據將改變人類(lèi)思考和看待世界的方式。而《外交政策》雜志則在網(wǎng)站上發(fā)表微軟研究院首席研究員、麻省理工學(xué)院公民媒體中心客座教授凱特·克勞福德的文章《對大數據的再思考》,從五個(gè)方面對大數據理論提出質(zhì)疑。
大數據帶來(lái)變革
《大數據的興起》一文作者是近期引發(fā)熱議的專(zhuān)著(zhù)《大數據時(shí)代:生活、工作與思維的大變革》作者肯尼思·庫克耶和維克托·邁爾—舍恩伯格。在文章中,庫克耶和舍恩伯格肯定了大數據對社會(huì )的巨大變革能力,稱(chēng)大數據不僅將改變人們的生活和工作,而且將改變人類(lèi)認識和思考世界的方式。
兩人認為,隨著(zhù)技術(shù)環(huán)境的變化,一方面世界出現“數據爆炸”的現象,另一方面人類(lèi)處理數據的能力也大為增強。由此,人們對待數據的方式出現了三個(gè)變化:第一,人們處理的數據從樣本數據變成全部數據;第二,由于是全樣本數據,人們不得不接受數據的混雜性,而放棄對精確性的追求;第三,人類(lèi)通過(guò)對大數據的處理,放棄對因果關(guān)系的渴求,轉而關(guān)注相互聯(lián)系。這一切代表著(zhù)人類(lèi)告別總是試圖了解世界運轉方式背后深層原因的態(tài)度,而走向僅僅需要弄清現象之間的聯(lián)系以及利用這些信息來(lái)解決問(wèn)題。
《大數據的興起》列舉了大數據在醫學(xué)、消費品領(lǐng)域的應用實(shí)例。但作者同時(shí)認為,大數據的影響力絕不僅限于商業(yè)范疇,它將深遠地改變政府的運作方式和政治的性質(zhì)。他們在文章中寫(xiě)道,“在推動(dòng)經(jīng)濟增長(cháng)、提供公共服務(wù)或進(jìn)行戰爭等方面,那些能夠有效利用大數據的人將擁有勝過(guò)別人的巨大優(yōu)勢”。不過(guò),兩位作者承認,大數據應用在公共服務(wù)領(lǐng)域比較成功的案例出現在城市這一級,因為在這個(gè)級別上獲取數據和利用信息進(jìn)行試驗要容易一些。
學(xué)者提出五質(zhì)疑
克勞福德的文章認為,大數據是當前的時(shí)髦術(shù)語(yǔ),但人們是否能依靠海量數據揭示人類(lèi)行為的規律仍值得懷疑。她針對大數據理論從五個(gè)方面提出質(zhì)疑。
第一,大數據中存在偏見(jiàn)和盲區。大數據的倡導者認為,“有了足夠的數據,數字就可以自己說(shuō)話(huà)”。但克勞福德認為,數字無(wú)法自己說(shuō)話(huà)。不論其規模有多大,數據集歸根到底是人類(lèi)設計的產(chǎn)物,而大數據的工具并不能使人們擺脫曲解、隔閡和錯誤的成見(jiàn)。當大數據試圖反映人類(lèi)所生活的社會(huì )化世界時(shí),認清這些因素就尤為重要。偏見(jiàn)和盲區存在于大數據中,從大數據得出的結論并不比人為的意見(jiàn)更客觀(guān)。
第二,大數據在一定程度上可以使城市變得更加智能和高效,但具體效果如何取決于市政官員對數據及其局限性的了解?藙诟5路Q(chēng),大數據的倡導者認為,“大數據將使我們的城市變得更加智能和高效”,在一定程度上確實(shí)如此。但另一方面,數據在生成或采集的過(guò)程中并不都是平等的,大數據集存在“信號問(wèn)題”——即某些民眾和社區被忽略或未得到充分代表。因此,要想運用好大數據,市政官員必須對數據及其局限性有充分了解。
第三,大數據可能導致基于群體的歧視。大數據的倡導者認為,“大數據對不同的社會(huì )群體不會(huì )厚此薄彼”,其理由是,原始數據的分析是在大規模水平上進(jìn)行的,因而避免了基于群體的歧視。但克勞福德認為,實(shí)際情況并非如此。由于大數據能夠作出有關(guān)群體不同行為方式的論斷,而且其使用的主要目的是把不同個(gè)體歸入不同的群體中,因此大數據不僅不會(huì )避免群體歧視,還可能加重這一趨勢。
第四,隱私泄露是大數據應用中的重要問(wèn)題?藙诟5抡J為,大數據的倡導者關(guān)于“大數據是匿名的,因此它不會(huì )侵犯我們的隱私”一說(shuō)大錯特錯。盡管許多大數據的提供者盡力消除數據中的個(gè)體身份,但身份重新被確認的風(fēng)險仍然很大。鑒于利用大量公共數據集可以推斷很多信息,這使泄露個(gè)人隱私成為“日益嚴重的擔憂(yōu)”。
第五,大數據為科學(xué)研究提供了新的途徑,但不可斷言“大數據是科學(xué)的未來(lái)”?藙诟5路Q(chēng),大數據的研究方法只能統計某件事情發(fā)生的頻率和相關(guān)性,但不能得出因果關(guān)系。將大數據策略和小數據研究相結合也許是更好的科學(xué)研究途徑。
庫克耶和舍恩伯格也認識到了大數據理論的一些內在瑕疵。在《大數據的興起》一文結尾,兩位作者表示,大數據是一種資源和工具,它的目的是告知,而不是解釋?zhuān)凰庠诖龠M(jìn)理解,但可能導致誤解——關(guān)鍵在于人們對它的掌握程度。他們認為,人們必須用一種不僅欣賞其力量、而且承認其局限的態(tài)度來(lái)接納大數據。