中國(guó)信通院發(fā)布“方升”大模型基準(zhǔn)測(cè)試系列成果

陳晨 ? 2024年11月18日 15:45:34 ? 產(chǎn)經(jīng)

隨著國(guó)內(nèi)外大模型技術(shù)和能力的提升，大模型評(píng)測(cè)也在產(chǎn)學(xué)研各界已得到蓬勃的發(fā)展。通過設(shè)計(jì)合理的任務(wù)、數(shù)據(jù)集和指標(biāo)，對(duì)大模型進(jìn)行基準(zhǔn)測(cè)試，是當(dāng)前定量評(píng)價(jià)大模型技術(shù)水平的主要方式。大模型基準(zhǔn)測(cè)試不僅可以評(píng)估當(dāng)前技術(shù)水平，指引未來學(xué)術(shù)研究，牽引產(chǎn)品研發(fā)、支撐行業(yè)應(yīng)用，還可以輔助監(jiān)管治理，也有利于增進(jìn)社會(huì)公眾對(duì)人工智能的正確認(rèn)知，是促進(jìn)人工智能技術(shù)產(chǎn)業(yè)發(fā)展的重要抓手。但隨著大模型能力的快速提升，產(chǎn)業(yè)化落地應(yīng)用逐漸增多，對(duì)大模型基準(zhǔn)測(cè)試提出了更高要求，亟需創(chuàng)新性的評(píng)測(cè)體系，高質(zhì)量的測(cè)試數(shù)據(jù)集，自動(dòng)化的評(píng)測(cè)方法，科學(xué)、公正、透明的大模型基準(zhǔn)測(cè)試環(huán)境。

2023年至今，在工信部人工智能關(guān)鍵技術(shù)和應(yīng)用評(píng)測(cè)實(shí)驗(yàn)室和人工智能產(chǎn)業(yè)發(fā)展聯(lián)盟（AIIA）評(píng)估工作組的指導(dǎo)下，中國(guó)信息通信研究院已對(duì)產(chǎn)學(xué)研各界已發(fā)布的500+大模型基準(zhǔn)測(cè)試數(shù)據(jù)集和方法進(jìn)行梳理和深入剖析，全面吸收產(chǎn)學(xué)研各界的優(yōu)秀成果，打造全面和堅(jiān)實(shí)的“方升”大模型基準(zhǔn)測(cè)試體系。在大模型測(cè)試標(biāo)準(zhǔn)方面，推動(dòng)形成5項(xiàng)大模型測(cè)試標(biāo)準(zhǔn)，包括1項(xiàng)ITU國(guó)際標(biāo)準(zhǔn)，1項(xiàng)行業(yè)標(biāo)準(zhǔn)和3項(xiàng)團(tuán)體標(biāo)準(zhǔn)。在測(cè)試數(shù)據(jù)和平臺(tái)方面，構(gòu)建了動(dòng)態(tài)測(cè)試數(shù)據(jù)庫(kù)，積累測(cè)試數(shù)據(jù)集260個(gè)，共計(jì)550萬條，研發(fā)自適應(yīng)動(dòng)態(tài)測(cè)試系統(tǒng)和測(cè)試數(shù)據(jù)自動(dòng)生成工具。在大模型監(jiān)控測(cè)試方面，2024年以來已對(duì)國(guó)內(nèi)外開閉源大模型開展4輪能力監(jiān)測(cè)，形成了較為成熟的評(píng)測(cè)方法，評(píng)測(cè)結(jié)果的科學(xué)性和公正性已有一定保證。

2024年11月12日，中國(guó)信通院在北京召開的中國(guó)人工智能產(chǎn)業(yè)發(fā)展聯(lián)盟（AIIA）第十三次全體會(huì)議上，發(fā)布“方升”大模型基準(zhǔn)測(cè)試體系階段性工作成果。

解讀“方升”大模型基準(zhǔn)測(cè)試體系測(cè)試結(jié)果。在中國(guó)信通院最新輪次測(cè)試中，共測(cè)試了64個(gè)大語(yǔ)言模型。其中，國(guó)內(nèi)大模型46個(gè)，國(guó)外大模型18個(gè)，包括GPT-4o、OpenAI o1、百度文心一言、騰訊混元、螞蟻百靈大模型等閉源商業(yè)大模型29個(gè)，以及Qwen2.5、LlaMA3等開源大模型35個(gè)。根據(jù)2024年10月的測(cè)試結(jié)果，國(guó)內(nèi)大模型能力發(fā)展迅速，但在復(fù)雜推理、指令遵循等場(chǎng)景上仍存在短板。

聯(lián)合中國(guó)信息通信研究院、北京智源人工智能研究院、中國(guó)移動(dòng)、中國(guó)電信、中國(guó)聯(lián)通、國(guó)家電網(wǎng)、南方電網(wǎng)、中國(guó)中車集團(tuán)、煤炭科學(xué)研究總院、廣州數(shù)據(jù)集團(tuán)等共同發(fā)布大模型基準(zhǔn)測(cè)試標(biāo)準(zhǔn)《大語(yǔ)言模型基準(zhǔn)測(cè)試體系框架及總體要求》。為推進(jìn)我國(guó)在人工智能領(lǐng)域的標(biāo)準(zhǔn)化建設(shè)，中國(guó)人工智能產(chǎn)業(yè)發(fā)展聯(lián)盟、中國(guó)信息通信研究院、人工智能關(guān)鍵技術(shù)和應(yīng)用評(píng)測(cè)工業(yè)和信息化部重點(diǎn)實(shí)驗(yàn)室聯(lián)合國(guó)內(nèi)重點(diǎn)科研機(jī)構(gòu)、央國(guó)企和大模型企業(yè)共同編制該標(biāo)準(zhǔn)。其規(guī)定了大語(yǔ)言模型基準(zhǔn)測(cè)試的體系框架，包括大語(yǔ)言模型的基準(zhǔn)測(cè)試指標(biāo)、測(cè)試數(shù)據(jù)集、測(cè)試流程和測(cè)試工具。經(jīng)過近一年時(shí)間多輪的測(cè)試實(shí)踐，標(biāo)準(zhǔn)的科學(xué)性和有效性已得到充分驗(yàn)證。

中國(guó)信通院發(fā)布“方升”大模型基準(zhǔn)測(cè)試系列成果

同時(shí)，會(huì)上也公開了“方升”大模型基準(zhǔn)測(cè)試數(shù)據(jù)集，以提升基準(zhǔn)測(cè)試的透明度。該測(cè)試數(shù)據(jù)集包含15000條測(cè)試數(shù)據(jù)集，覆蓋理解、生成、推理、數(shù)學(xué)、知識(shí)、學(xué)科、代碼、多語(yǔ)言、角色扮演、工具使用、指令遵循、可靠性、魯棒性、心智和情商15個(gè)測(cè)試維度，通過數(shù)據(jù)集來源、語(yǔ)言種類、測(cè)試維度、題目難度、測(cè)試次數(shù)等多個(gè)標(biāo)簽對(duì)測(cè)試數(shù)據(jù)進(jìn)行體系化管理。

聯(lián)合百度、騰訊、華為、阿里、訊飛、智譜、螞蟻、火山引擎、商湯科技、360、零一萬物、階躍星辰、MiniMax等大模型廠商發(fā)布《構(gòu)建科學(xué)、公正、透明的大模型基準(zhǔn)測(cè)試生態(tài)倡議書》。目前，產(chǎn)學(xué)研各界陸續(xù)發(fā)布了一系列評(píng)測(cè)數(shù)據(jù)集、評(píng)測(cè)框架和評(píng)測(cè)榜單，隨之出現(xiàn)了一些基于基準(zhǔn)測(cè)試的不良現(xiàn)象，對(duì)大模型技術(shù)的快速落地帶來了影響。因此，經(jīng)人工智能產(chǎn)業(yè)發(fā)展聯(lián)盟指導(dǎo)，中國(guó)信息通信研究院聯(lián)合國(guó)內(nèi)主流人工智能企業(yè)，共同呼吁盡快完善科學(xué)、公正、透明的大模型基準(zhǔn)測(cè)試生態(tài)，促進(jìn)整個(gè)基準(zhǔn)測(cè)試行業(yè)的健康、可持續(xù)發(fā)展。

當(dāng)前，中國(guó)信通院已形成包括測(cè)試準(zhǔn)備、測(cè)試執(zhí)行和測(cè)試反饋的大模型測(cè)試流程。在測(cè)試準(zhǔn)備階段，與參與測(cè)試的大模型企業(yè)對(duì)測(cè)試方案和測(cè)試數(shù)據(jù)集進(jìn)行充分研討，確保測(cè)試過程的科學(xué)性和有效性。在測(cè)試執(zhí)行階段，采用自適應(yīng)動(dòng)態(tài)測(cè)試技術(shù)，解決評(píng)測(cè)數(shù)據(jù)集難管理、大模型測(cè)試“刷榜”等問題，高效、精準(zhǔn)挖掘大模型缺陷。在測(cè)試反饋階段，通過測(cè)試報(bào)告將測(cè)試結(jié)果、模型優(yōu)劣分析，BadCase和改進(jìn)建議等及時(shí)反饋給參測(cè)大模型企業(yè)。

當(dāng)前，大模型基準(zhǔn)測(cè)試仍存在諸多開放性的問題，需要產(chǎn)學(xué)研各界緊密合作。中國(guó)信息通信研究院將持續(xù)加強(qiáng)大模型評(píng)測(cè)技術(shù)研發(fā)投入，多措并舉加強(qiáng)評(píng)測(cè)體系的推廣應(yīng)用，不斷提升大模型評(píng)測(cè)公信力和權(quán)威性，為前沿人工智能技術(shù)和賦能新型工業(yè)化提供有力支撐。歡迎成為“方升”大模型基準(zhǔn)測(cè)試體系合作伙伴，共同建設(shè)科學(xué)、公正大模型基準(zhǔn)測(cè)試體系和生態(tài)，為大模型行業(yè)健康有序發(fā)展提供有力支撐。

本文轉(zhuǎn)載自：，不代表科技訊之立場(chǎng)。原文鏈接：https://cn.chinadaily.com.cn/a/202411/18/WS673add0aa310b59111da3f4b.html

陳晨管理團(tuán)隊(duì)

0 0

產(chǎn)經(jīng)

歐萊雅集團(tuán)于CES?2025發(fā)布L’Oréal Cell BioPrint

開創(chuàng)根植于長(zhǎng)壽科學(xué)領(lǐng)域的消費(fèi)者皮膚智能”芯”紀(jì)元　　這款便攜式”微芯實(shí)驗(yàn)室”設(shè)備采用前沿科技，助力消費(fèi)者了解自身皮膚老化軌跡，獲取…

陳晨
8分鐘前
Check Point：企業(yè)如何應(yīng)對(duì)復(fù)雜網(wǎng)絡(luò)挑戰(zhàn)？

在剛剛過去的2024年，AI應(yīng)用不斷擴(kuò)展，各式新型智能設(shè)備、新能源汽車也在不斷普及。遠(yuǎn)程辦公、云服務(wù)及移動(dòng)設(shè)備的廣泛采用拓展了傳統(tǒng)的網(wǎng)絡(luò)邊界，不僅加大了確保安全高效訪問資源的難度，…

陳晨
產(chǎn)經(jīng) 10分鐘前
不丹 GMC 將加密資產(chǎn)納入戰(zhàn)略儲(chǔ)備，矩陣之門（Matrixport ）成為首批牌照申請(qǐng)企業(yè)

近日,不丹王國(guó)特別行政區(qū)格勒普正念城(Gelephu Mindfulness City,簡(jiǎn)稱 GMC)宣布將 BTC、ETH 和 BNB 納入國(guó)家戰(zhàn)略資產(chǎn)儲(chǔ)備,并一舉成為首批將數(shù)字…

陳晨
產(chǎn)經(jīng) 16小時(shí)前
產(chǎn)經(jīng)

鋒物科技閃耀第五屆國(guó)際新質(zhì)生產(chǎn)力科創(chuàng)節(jié)，攬獲雙項(xiàng)殊榮

近日，在備受矚目的第五屆國(guó)際新質(zhì)生產(chǎn)力科創(chuàng)節(jié)上，鋒物科技憑借其在人工智能領(lǐng)域的卓越創(chuàng)新與突出應(yīng)用成果，成功斬獲 “2024 年度人工智能引領(lǐng)獎(jiǎng)”，與此同時(shí)，公司 CTO 丁文斌憑借…

陳晨
16小時(shí)前
中微公司發(fā)明專利再獲中國(guó)專利獎(jiǎng)殊榮

中國(guó)上海，2025年1月9日——中微半導(dǎo)體設(shè)備（上海）股份有限公司（以下簡(jiǎn)稱“中微公司”，上交所股票代碼：688012）和南昌中微半導(dǎo)體設(shè)備有限公司共同擁有的發(fā)明專利“一種化學(xué)氣相…

陳晨
產(chǎn)經(jīng) 16小時(shí)前
產(chǎn)經(jīng)

以“真心換真心”，胖東來、阿爾法蛋、小米等品牌與用戶的雙向奔赴

又到一年飄雪時(shí),哈爾濱冬季限定“討好型市格”再出江湖。在社交平臺(tái)上,“地鐵座椅加熱”“凍梨擺盤”等均引發(fā)熱議,隨著內(nèi)容發(fā)酵,哈爾濱旅游的熱度也持續(xù)走高,數(shù)據(jù)顯示其成為冰雪游熱門目的…

陳晨
17小時(shí)前
產(chǎn)經(jīng)

快輪科技：一輛特斯拉的價(jià)格買飛行摩托，誰還買飛行汽車？

在2025年的CES展上，快輪科技以一款顛覆性的創(chuàng)新產(chǎn)品——飛行摩托Skyrider X1，成功吸引了全球觀眾的廣泛關(guān)注與熱烈討論。作為快輪科技涉足低空飛行領(lǐng)域的最新力作，Sky…

陳晨
17小時(shí)前
慧算賬入選《北京市獨(dú)角獸企業(yè)名單（2024）》

1 月 6 日，中關(guān)村獨(dú)角獸企業(yè)發(fā)展聯(lián)盟、北京市長(zhǎng)城企業(yè)戰(zhàn)略研究所、北京方迪經(jīng)濟(jì)發(fā)展研究院、清華大學(xué)中國(guó)科技政策研究中心、IT 桔子、畢馬威企業(yè)咨詢（中國(guó)）有限公司等聯(lián)合重磅發(fā)布了…

陳晨
產(chǎn)經(jīng) 17小時(shí)前
產(chǎn)經(jīng)

寒假親子出行三星AI神系列產(chǎn)品智慧洗烘護(hù)理讓家庭旅行更愜意

寒假即將來臨，作為親子出行的黃金時(shí)期，無論是城市探索還是戶外探險(xiǎn)，都讓即將啟程的家庭旅行滿載憧憬與期待。而三星生活家電匠心推出的AI神黑鉆熱泵洗烘旗艦和AI神黑鉆衣物護(hù)理機(jī)系列產(chǎn)品…

陳晨
17小時(shí)前
產(chǎn)經(jīng)

為新質(zhì)生產(chǎn)力注入AI動(dòng)能米思米meviy智能報(bào)價(jià)平臺(tái)斬獲新質(zhì)生產(chǎn)力影響力企業(yè)獎(jiǎng)

2025年1月8日，STIF第五屆國(guó)際科創(chuàng)節(jié)暨2024新質(zhì)生產(chǎn)力領(lǐng)航者峰會(huì)在北京舉行。會(huì)上，米思米憑借其在科技創(chuàng)新領(lǐng)域的突出表現(xiàn)，特別是其創(chuàng)新的meviy非標(biāo)零件AI智能報(bào)價(jià)平臺(tái)，…

陳晨
23小時(shí)前
產(chǎn)經(jīng)

元蘿卜閃耀 CES 2025，有文化的AI彰顯中國(guó)原創(chuàng)力量

2025年1月7日至10日，全球矚目的科技盛會(huì)——2025 CES全球消費(fèi)電子展在美國(guó)拉斯維加斯盛大開幕。在這場(chǎng)匯聚全球頂尖科技產(chǎn)品的舞臺(tái)上，商湯科技旗下家用機(jī)器人品牌元蘿卜攜全系…

陳晨
23小時(shí)前
產(chǎn)經(jīng)

2025社交趨勢(shì)報(bào)告:電子布洛芬、情價(jià)比、最小單位確定性等為社交關(guān)鍵詞

Z世代正經(jīng)歷一場(chǎng)前所未有的自我探索。他們對(duì)自我、他人和世界的關(guān)系提出了全新的思考。在外部世界日益復(fù)雜多變的背景下,年輕人試圖在社交中尋找確定性,重塑自我,并建立更健康的人際關(guān)系?！?/p>

陳晨
23小時(shí)前
產(chǎn)經(jīng)

AI·愛·Eye，眼科大模型ChatZOC開啟大規(guī)模篩查之旅

喀什，中國(guó)最西端的城市，十二月已經(jīng)被白雪覆蓋，早上8點(diǎn)鐘，天空擦黑，距離日出還有兩個(gè)半小時(shí)，兩輛銀灰色的車行駛在夜色中。車?yán)锸莵碜晕迩Ф喙镏獾闹猩窖劭茖＜液腿A為AI技術(shù)團(tuán)隊(duì)，他…

陳晨
1天前
產(chǎn)經(jīng)

精實(shí)測(cè)控亮相CES2025，引領(lǐng)AI工業(yè)應(yīng)用和柔性制造新潮流

美國(guó)當(dāng)?shù)貢r(shí)間2025年1月7日-10日，全球矚目的消費(fèi)電子展（CES）在美國(guó)拉斯維加斯盛大舉行。作為測(cè)控領(lǐng)域的重要參與者，精實(shí)測(cè)控技術(shù)股份有限公司攜其在AI工業(yè)應(yīng)用和柔性制造方面的…

陳晨
1天前
產(chǎn)經(jīng)

手機(jī)、平板購(gòu)新補(bǔ)貼標(biāo)準(zhǔn)來了京東全力保障補(bǔ)貼政策落地

想要換新手機(jī)、平板、智能手表手環(huán)，今年可以安排上了！1月8日，國(guó)家發(fā)展改革委、財(cái)政部發(fā)布《關(guān)于2025年加力擴(kuò)圍實(shí)施大規(guī)模設(shè)備更新和消費(fèi)品以舊換新政策的通知》，明確指出對(duì)個(gè)人消費(fèi)者…

陳晨
1天前
產(chǎn)經(jīng)

華為乾崑攜手國(guó)家地理：從東海之濱到昆侖之巔，引領(lǐng)未來智慧出行新時(shí)代

1月7日，由華為乾崑攜手中國(guó)國(guó)家地理打造的《穿越中央山脊》系列紀(jì)錄片迎來收官之作——《昆侖，冰雪練就的中國(guó)脊梁》。自2024年12月5日發(fā)布先導(dǎo)片，到今日發(fā)布收官站視頻，本次“穿…

陳晨
1天前
產(chǎn)經(jīng)

戴爾科技集團(tuán)以全新設(shè)計(jì)的PC產(chǎn)品組合驅(qū)動(dòng)行業(yè)創(chuàng)新?

戴爾科技集團(tuán)（以下簡(jiǎn)稱”戴爾科技”）憑借數(shù)十載的PC創(chuàng)新積淀，推出全新簡(jiǎn)化的產(chǎn)品組合，搭載設(shè)備端AI技術(shù)，可助力終端用戶大幅提升創(chuàng)造力與生產(chǎn)力。戴爾科技通…

陳晨
1天前
產(chǎn)經(jīng)

樂享沉浸三星Galaxy Buds3系列讓音樂相伴假期

度過了漫長(zhǎng)期末復(fù)習(xí)季，美好假期正向我們招手，想必此時(shí)的你早已經(jīng)期待許久：電影、電視劇、綜藝、小說、音樂、游戲……這些曾因?qū)W業(yè)壓力被擱置的美好，如今終于可以趁假期的自由時(shí)光里將之一一…

陳晨
1天前
產(chǎn)經(jīng)

買“東哥”同款就來京東年貨節(jié) 部分3C數(shù)碼產(chǎn)品享國(guó)家補(bǔ)貼8折優(yōu)惠

1月7日，京東攜手超百大品牌、名人帶來全國(guó)最大規(guī)模的“我給老家送年貨”活動(dòng)，將滿載深厚情誼與美好祝福的年貨送往天南地北，為每一個(gè)渴望團(tuán)圓、期盼年味的家庭帶去溫暖與祝福。京東集團(tuán)創(chuàng)始…

陳晨
1天前
技嘉于 CES 2025 發(fā)布 Intel 和 AMD B800 系列主板以 AI 重塑游戲性能

全球電腦品牌技嘉科技在 CES 2025 發(fā)布新一代 Intel? B860 和 AMD B850 系列主板,通過新設(shè)計(jì)的 AI 技術(shù)及友善設(shè)計(jì)釋放新一代 Intel?&…

陳晨
產(chǎn)經(jīng) 1天前

發(fā)表回復(fù)

登錄后才能評(píng)論

中國(guó)信通院發(fā)布“方升”大模型基準(zhǔn)測(cè)試系列成果

相關(guān)推薦

發(fā)表回復(fù)