近來(lái),人工智能大模型風(fēng)云起涌,不少科技企業(yè)加快拓寬應用生態(tài)。主流大模型的實(shí)際使用感受如何?各大科技企業(yè)有何優(yōu)劣勢?8月12日,新華社研究院中國企業(yè)發(fā)展研究中心發(fā)布的《人工智能大模型體驗報告2.0》(以下簡(jiǎn)稱(chēng)報告)顯示,訊飛星火、百度文心一言、商湯商量和智譜AI-ChatGLM均表現搶眼,AI大模型的發(fā)展為人類(lèi)工作和生活的提質(zhì)增效均帶來(lái)了正向積極的影響。
今年以來(lái),國內科技企業(yè)紛紛布局人工智能大模型。據不完全統計,在新一輪生成式AI熱潮中,國內已經(jīng)出現了上百個(gè)大模型。天眼查數據顯示,截至2023年上半年,與“大模型”直接相關(guān)的融資事件超20起。
為進(jìn)一步直觀(guān)感受我國當前主流科技企業(yè)所推出的大模型產(chǎn)品的現狀、優(yōu)勢和特點(diǎn),新華社研究院中國企業(yè)發(fā)展研究中心于今年7月啟動(dòng)了本次報告研究。與2023年6月首次發(fā)布的《人工智能大模型體驗報告》相比,本次測評在題目設計、對標Benchmark(人類(lèi))、打分權重、專(zhuān)家測評團隊四大維度進(jìn)行了全面升級。
其中,在題目設計方面,測評題目由300道擴展至500道,并進(jìn)一步完善了題目分類(lèi);在對標Benchmark方面,本次測評將接受過(guò)高等教育的人類(lèi)作為對照,來(lái)考評大模型真實(shí)能力;在打分標準上,本次測評根據對產(chǎn)業(yè)、生活的實(shí)際價(jià)值,對基礎能力、智商能力、情商能力和工具提效四大測評維度進(jìn)行了權重設計;在測評團隊方面,本次測評特邀北京大學(xué)文化與傳播研究所及其他產(chǎn)界、學(xué)界專(zhuān)家全程參與。
本次研究設置了用戶(hù)體驗項目,抓取了7月31日—8月4日數據,通過(guò)人機互動(dòng)提問(wèn)等形式,對國內主流大模型進(jìn)行使用體驗評測,旨在為科技企業(yè)調整努力方向提供參考。
報告顯示,與2023年6月相比,當前中國大模型產(chǎn)品進(jìn)步顯著(zhù)。但與接受過(guò)高等教育的人類(lèi)相比,大模型在智商、情商等方面還存在一定程度差距。具體來(lái)看,訊飛星火在工作提效方面優(yōu)勢明顯,百度文心一言基礎能力仍處領(lǐng)軍水準,商湯商量則在情商方面表現優(yōu)秀,智譜AI-ChatGLM整體表現優(yōu)秀。
針對各維度能力測評,該報告還給出了相應的案例展示和分析。
在基礎能力方面,人類(lèi)與AI之間的差距并不顯著(zhù)。課題組分別從語(yǔ)言能力(35%)、AI向善(10%)、跨模態(tài)(20%)和多輪對話(huà)(35%)四大指標進(jìn)行測評。測評顯示,科技企業(yè)大模型中,百度文心一言表現最為搶眼,商湯商量、智譜AI-ChatGLM、360智腦表現優(yōu)良。
在智商評估方面,人類(lèi)在智商方面仍然具有明顯優(yōu)勢。課題組分別從常識知識(20%)、邏輯能力(50%)和專(zhuān)業(yè)知識(30%)方面對科技企業(yè)大模型進(jìn)行考量。結果顯示,訊飛星火、智譜AI-ChatGLM表現突出,百度文心一言、昆侖萬(wàn)維天工表現優(yōu)良。
在情商方面,AI與人類(lèi)之間的差距最為明顯。人類(lèi)在情緒理解和處理方面通常具有更強的優(yōu)勢,和更靈活的處理能力。通過(guò)對處理日常事項(35%)、一語(yǔ)雙關(guān)(30%)、人際關(guān)系(35%)問(wèn)題進(jìn)行分析發(fā)現,科技企業(yè)大模型中,商湯商量表現亮眼,百度文心一言、瀾舟科技Mchat、智譜AI-ChatGLM及360智腦均表現優(yōu)良。
在工作效率提升方面,課題組重點(diǎn)在工具提效(50%)和生成創(chuàng )新(50%)方面進(jìn)行考量。結果顯示,訊飛星火表現最為搶眼,百度文心一言、商湯商量、智譜AI-ChatGLM表現優(yōu)良。不過(guò),盡管AI具有高速度和高效率的優(yōu)勢,但在某些復雜和具有創(chuàng )新性的任務(wù)中,人類(lèi)的智慧和想象力仍然具有無(wú)法替代的作用。
報告認為,雖然在不同領(lǐng)域中,AI和人類(lèi)表現出不同的優(yōu)劣勢,但在整體上,AI大模型的發(fā)展為人類(lèi)工作和生活的提質(zhì)增效帶來(lái)了重要的積極影響,大模型正在加速走進(jìn)生活、走進(jìn)產(chǎn)業(yè)。在本次體驗測評基礎上,研究團隊將繼續深耕,加強在大模型安全可解釋性、工作提效能力、實(shí)際落地情況、產(chǎn)業(yè)優(yōu)秀案例等維度上的探索與研究。
掃描二維碼查看《人工智能大模型體驗報告2.0》全文
經(jīng)濟參考報社版權所有 本站所有新聞內容未經(jīng)經(jīng)濟參考報協(xié)議授權,禁止轉載使用
新聞線(xiàn)索提供熱線(xiàn):010-63074375 63072334 報社地址:北京市宣武門(mén)西大街57號
JJCKB.CN 京ICP備18039543號