上海AI實驗室主任周伯文：探索人工智能45°平衡律 _ 經濟參考網

　　2024世界人工智能大會暨人工智能全球治理高級別會議（WAIC 2024）7月4日在上海開幕。上海人工智能實驗室（簡稱“上海AI實驗室”）主任、清華大學惠妍講席教授周伯文在會議上提出“探索人工智能45°平衡律”的技術主張。

　　周伯文指出，當前，以大模型為代表的生成式人工智能快速發展，但隨著能力的不斷提升，模型自身及其應用也帶來了一系列潛在風險的顧慮。

　　從公眾對AI風險的關注程度來看，首先是數據泄露、濫用、隱私及版權相關的內容風險，其次是惡意使用帶來偽造、虛假信息等相關的使用風險，當然也誘發了偏見歧視等倫理相關問題，此外還有人擔心人工智能是否會對就業結構等社會系統性問題帶來挑戰。在一系列關于人工智能的科幻電影中，甚至出現了AI失控、人類喪失自主權等設定。

　　在周伯文看來，這些由AI帶來的風險已初露端倪，但更多的是潛在風險，防范這些風險需要各界共同努力，需要科學社區做出更多貢獻。對此，他表示，“可信AGI（人工通用智能）需要能夠兼顧安全與性能，我們需要找到AI安全優先，但又能保證AI性能長期發展的技術體系。我們把這樣一種技術思想體系叫做‘AI-45°平衡律’（AI-45°Law）?！?/p>

　　據介紹，AI-45°平衡律是指從長期的角度來看，AGI要大體上沿著45度安全與性能平衡發展，平衡是指短期可以有波動，但不能長期低于45°（如同現在），也不能長期高于45度（這將阻礙發展與產業應用）。這個技術思想體系要求強技術驅動、全流程優化、多主體參與以及敏捷治理。

　　實現AI-45°平衡律也許有多種技術路徑。周伯文表示，上海AI實驗室最近在探索一條以因果為核心的路徑，并取名為：可信AGI的“因果之梯”，致敬因果推理領域的先驅——圖靈獎得主Judea Pearl。

　　可信AGI的“因果之梯”將可信AGI的發展分為三個遞進階段：泛對齊、可干預、能反思?！胺簩R”主要包含當前最前沿的人類偏好對齊技術。但需要注意的是，這些安全對齊技術僅依賴統計相關性而忽視真正的因果關系，可能導致錯誤推理和潛在危險?！翱筛深A”主要包含通過對AI系統進行干預，探究其因果機制的安全技術，通過提高可解釋性和泛化性來提升安全性，同時也能提升AI能力?！澳芊此肌眲t要求AI系統不僅追求高效執行任務，還能審視自身行為的影響和潛在風險，從而在追求性能的同時，確保安全和道德邊界不被突破。

　　周伯文表示，“正如可控核聚變對全人類都是共同利益一樣，我們堅信AI的安全也是全球性的公共福祉，愿與大家一起攜手推進AI-45°平衡律的發展，共享AI安全技術、加強全球AI安全人才交流與合作，平衡AI安全與能力的投入，共同構建開放、安全的通用人工智能創新生態和人才發展環境?！?/p>