隨著國(guó)內(nèi)外大模型技術(shù)和能力的提升,大模型評(píng)測(cè)也在產(chǎn)學(xué)研各界已得到蓬勃的發(fā)展。通過設(shè)計(jì)合理的任務(wù)、數(shù)據(jù)集和指標(biāo),對(duì)大模型進(jìn)行基準(zhǔn)測(cè)試,是當(dāng)前定量評(píng)價(jià)大模型技術(shù)水平的主要方式。大模型基準(zhǔn)測(cè)試不僅可以評(píng)估當(dāng)前技術(shù)水平,指引未來學(xué)術(shù)研究,牽引產(chǎn)品研發(fā)、支撐行業(yè)應(yīng)用,還可以輔助監(jiān)管治理,也有利于增進(jìn)社會(huì)公眾對(duì)人工智能的正確認(rèn)知,是促進(jìn)人工智能技術(shù)產(chǎn)業(yè)發(fā)展的重要抓手。但隨著大模型能力的快速提升,產(chǎn)業(yè)化落地應(yīng)用逐漸增多,對(duì)大模型基準(zhǔn)測(cè)試提出了更高要求,亟需創(chuàng)新性的評(píng)測(cè)體系,高質(zhì)量的測(cè)試數(shù)據(jù)集,自動(dòng)化的評(píng)測(cè)方法,科學(xué)、公正、透明的大模型基準(zhǔn)測(cè)試環(huán)境。
2023年至今,在工信部人工智能關(guān)鍵技術(shù)和應(yīng)用評(píng)測(cè)實(shí)驗(yàn)室和人工智能產(chǎn)業(yè)發(fā)展聯(lián)盟(AIIA)評(píng)估工作組的指導(dǎo)下,中國(guó)信息通信研究院已對(duì)產(chǎn)學(xué)研各界已發(fā)布的500+大模型基準(zhǔn)測(cè)試數(shù)據(jù)集和方法進(jìn)行梳理和深入剖析,全面吸收產(chǎn)學(xué)研各界的優(yōu)秀成果,打造全面和堅(jiān)實(shí)的“方升”大模型基準(zhǔn)測(cè)試體系。在大模型測(cè)試標(biāo)準(zhǔn)方面,推動(dòng)形成5項(xiàng)大模型測(cè)試標(biāo)準(zhǔn),包括1項(xiàng)ITU國(guó)際標(biāo)準(zhǔn),1項(xiàng)行業(yè)標(biāo)準(zhǔn)和3項(xiàng)團(tuán)體標(biāo)準(zhǔn)。在測(cè)試數(shù)據(jù)和平臺(tái)方面,構(gòu)建了動(dòng)態(tài)測(cè)試數(shù)據(jù)庫(kù),積累測(cè)試數(shù)據(jù)集260個(gè),共計(jì)550萬條,研發(fā)自適應(yīng)動(dòng)態(tài)測(cè)試系統(tǒng)和測(cè)試數(shù)據(jù)自動(dòng)生成工具。在大模型監(jiān)控測(cè)試方面,2024年以來已對(duì)國(guó)內(nèi)外開閉源大模型開展4輪能力監(jiān)測(cè),形成了較為成熟的評(píng)測(cè)方法,評(píng)測(cè)結(jié)果的科學(xué)性和公正性已有一定保證。
2024年11月12日,中國(guó)信通院在北京召開的中國(guó)人工智能產(chǎn)業(yè)發(fā)展聯(lián)盟(AIIA)第十三次全體會(huì)議上,發(fā)布“方升”大模型基準(zhǔn)測(cè)試體系階段性工作成果。
解讀“方升”大模型基準(zhǔn)測(cè)試體系測(cè)試結(jié)果。在中國(guó)信通院最新輪次測(cè)試中,共測(cè)試了64個(gè)大語(yǔ)言模型。其中,國(guó)內(nèi)大模型46個(gè),國(guó)外大模型18個(gè),包括GPT-4o、OpenAI o1、百度文心一言、騰訊混元、螞蟻百靈大模型等閉源商業(yè)大模型29個(gè),以及Qwen2.5、LlaMA3等開源大模型35個(gè)。根據(jù)2024年10月的測(cè)試結(jié)果,國(guó)內(nèi)大模型能力發(fā)展迅速,但在復(fù)雜推理、指令遵循等場(chǎng)景上仍存在短板。
聯(lián)合中國(guó)信息通信研究院、北京智源人工智能研究院、中國(guó)移動(dòng)、中國(guó)電信、中國(guó)聯(lián)通、國(guó)家電網(wǎng)、南方電網(wǎng)、中國(guó)中車集團(tuán)、煤炭科學(xué)研究總院、廣州數(shù)據(jù)集團(tuán)等共同發(fā)布大模型基準(zhǔn)測(cè)試標(biāo)準(zhǔn)《大語(yǔ)言模型基準(zhǔn)測(cè)試體系框架及總體要求》。為推進(jìn)我國(guó)在人工智能領(lǐng)域的標(biāo)準(zhǔn)化建設(shè),中國(guó)人工智能產(chǎn)業(yè)發(fā)展聯(lián)盟、中國(guó)信息通信研究院、人工智能關(guān)鍵技術(shù)和應(yīng)用評(píng)測(cè)工業(yè)和信息化部重點(diǎn)實(shí)驗(yàn)室聯(lián)合國(guó)內(nèi)重點(diǎn)科研機(jī)構(gòu)、央國(guó)企和大模型企業(yè)共同編制該標(biāo)準(zhǔn)。其規(guī)定了大語(yǔ)言模型基準(zhǔn)測(cè)試的體系框架,包括大語(yǔ)言模型的基準(zhǔn)測(cè)試指標(biāo)、測(cè)試數(shù)據(jù)集、測(cè)試流程和測(cè)試工具。經(jīng)過近一年時(shí)間多輪的測(cè)試實(shí)踐,標(biāo)準(zhǔn)的科學(xué)性和有效性已得到充分驗(yàn)證。
同時(shí),會(huì)上也公開了“方升”大模型基準(zhǔn)測(cè)試數(shù)據(jù)集,以提升基準(zhǔn)測(cè)試的透明度。該測(cè)試數(shù)據(jù)集包含15000條測(cè)試數(shù)據(jù)集,覆蓋理解、生成、推理、數(shù)學(xué)、知識(shí)、學(xué)科、代碼、多語(yǔ)言、角色扮演、工具使用、指令遵循、可靠性、魯棒性、心智和情商15個(gè)測(cè)試維度,通過數(shù)據(jù)集來源、語(yǔ)言種類、測(cè)試維度、題目難度、測(cè)試次數(shù)等多個(gè)標(biāo)簽對(duì)測(cè)試數(shù)據(jù)進(jìn)行體系化管理。
聯(lián)合百度、騰訊、華為、阿里、訊飛、智譜、螞蟻、火山引擎、商湯科技、360、零一萬物、階躍星辰、MiniMax等大模型廠商發(fā)布《構(gòu)建科學(xué)、公正、透明的大模型基準(zhǔn)測(cè)試生態(tài)倡議書》。目前,產(chǎn)學(xué)研各界陸續(xù)發(fā)布了一系列評(píng)測(cè)數(shù)據(jù)集、評(píng)測(cè)框架和評(píng)測(cè)榜單,隨之出現(xiàn)了一些基于基準(zhǔn)測(cè)試的不良現(xiàn)象,對(duì)大模型技術(shù)的快速落地帶來了影響。因此,經(jīng)人工智能產(chǎn)業(yè)發(fā)展聯(lián)盟指導(dǎo),中國(guó)信息通信研究院聯(lián)合國(guó)內(nèi)主流人工智能企業(yè),共同呼吁盡快完善科學(xué)、公正、透明的大模型基準(zhǔn)測(cè)試生態(tài),促進(jìn)整個(gè)基準(zhǔn)測(cè)試行業(yè)的健康、可持續(xù)發(fā)展。
當(dāng)前,中國(guó)信通院已形成包括測(cè)試準(zhǔn)備、測(cè)試執(zhí)行和測(cè)試反饋的大模型測(cè)試流程。在測(cè)試準(zhǔn)備階段,與參與測(cè)試的大模型企業(yè)對(duì)測(cè)試方案和測(cè)試數(shù)據(jù)集進(jìn)行充分研討,確保測(cè)試過程的科學(xué)性和有效性。在測(cè)試執(zhí)行階段,采用自適應(yīng)動(dòng)態(tài)測(cè)試技術(shù),解決評(píng)測(cè)數(shù)據(jù)集難管理、大模型測(cè)試“刷榜”等問題,高效、精準(zhǔn)挖掘大模型缺陷。在測(cè)試反饋階段,通過測(cè)試報(bào)告將測(cè)試結(jié)果、模型優(yōu)劣分析,BadCase和改進(jìn)建議等及時(shí)反饋給參測(cè)大模型企業(yè)。
當(dāng)前,大模型基準(zhǔn)測(cè)試仍存在諸多開放性的問題,需要產(chǎn)學(xué)研各界緊密合作。中國(guó)信息通信研究院將持續(xù)加強(qiáng)大模型評(píng)測(cè)技術(shù)研發(fā)投入,多措并舉加強(qiáng)評(píng)測(cè)體系的推廣應(yīng)用,不斷提升大模型評(píng)測(cè)公信力和權(quán)威性,為前沿人工智能技術(shù)和賦能新型工業(yè)化提供有力支撐。歡迎成為“方升”大模型基準(zhǔn)測(cè)試體系合作伙伴,共同建設(shè)科學(xué)、公正大模型基準(zhǔn)測(cè)試體系和生態(tài),為大模型行業(yè)健康有序發(fā)展提供有力支撐。
本文轉(zhuǎn)載自:,不代表科技訊之立場(chǎng)。原文鏈接:https://cn.chinadaily.com.cn/a/202411/18/WS673add0aa310b59111da3f4b.html