超越GPT-4 Claude 3超大杯成新王

AI ? 2024年3月28日 20:13:00 ? AI

Claude 3 Opus在Chatbot Arena的聊天機器人對戰(zhàn)排行榜中反超GPT-4，成為新冠軍，且Claude 3家族整體表現(xiàn)亮眼。Chatbot Arena榜單權(quán)威，基于真實人類用戶體驗打分。Claude 3因其勤奮和低成本受到好評，尤其Claude 3 Haiku能以低成本即時運行并提供高智能客戶服務(wù)。相比之下，ChatGPT被指在過去一年中零增長，面臨競爭壓力，垂直化AI初創(chuàng)公司正滿足用戶需求。ChatGPT未來可能以平臺專屬模型為特色，成為新的增長點。

太瘋狂了！Claude 3 Opus超越了GPT-4，成為新的國王！今天，Chatbot Arena更新了聊天機器人對戰(zhàn)的排行榜，在經(jīng)過了時間的洗禮和群眾的檢驗之后，之前略遜于GPT-4的Claude 3竟然反超了！

而且不僅僅是Claude 3的超大杯Opus成功登頂，藐視眾生，Claude 3家族的整體表現(xiàn)都非常亮眼。

大杯Claude 3 Sonnet排到了第4，就連最小的Claude 3 HaiKu都達(dá)到了GPT-4水平！

那么相比于基準(zhǔn)測試跑分，這個榜單的權(quán)威性如何？

Chatbot Arena（聊天機器人競技場），由伯克利團(tuán)隊開發(fā)，每個模型在榜單上的得分，完全取決于真實人類用戶的使用體驗。

我們來看一下打分規(guī)則：

用戶同時向兩個匿名模型（比如ChatGPT、Claude、Llama）提出任何相同的問題，然后根據(jù)回答投票給表現(xiàn)更好的模型；

如果一次回答不能確定，用戶可以繼續(xù)聊天，直到確定獲勝者；

如果在對話中透露了模型的身份，則不會計算投票。

Chatbot Arena平臺收集了超過40萬人的投票，來計算出這個大模型的等級分排行榜，最終找出誰是冠軍。

顯然，這回Claude 3贏麻了。

我們來看一下真實的戰(zhàn)況：

在所有非平局對戰(zhàn)中， A對B獲勝的比例：

模型之間的對戰(zhàn)次數(shù)（無平局）：

GPT-4終于被干掉了，對此，有網(wǎng)友開始惡搞：

剛在當(dāng)?shù)爻锌吹絊am Altman，他一臉震驚地看著手機。幾秒鐘后，他真的倒下了，開始劇烈顫抖。經(jīng)過2分鐘的搖晃和尖叫，一群人圍繞著他試圖幫助他。但令人驚訝的是，他在2分鐘后停止了顫抖和尖叫，站起來，拿起手機開始撥打一個號碼。

“準(zhǔn)備釋放……”

咱也不知道Altman要放的是不是GPT-5。

網(wǎng)友表示，Claude確實要比GPT勤奮得多：

GPT-4-Turbo非常懶惰。在任何編碼任務(wù)中，它都會跳過部分代碼，并表示“你自己知道要放什么”，而Opus可以毫無遺漏地輸出整個代碼。

就連Claude-2也通過自己的勤奮和耐心感動了這位網(wǎng)友。

更有比較務(wù)實的網(wǎng)友指出，Haiku的排名更為重要，因為它是第一個可以以極低成本即時運行的LLM，并且具有足夠高的智能來提供實時客戶服務(wù)。

盲生你發(fā)現(xiàn)了華點！Claude 3 Haiku不僅與原始版本的GPT-4表現(xiàn)一樣好，關(guān)鍵是相當(dāng)便宜，在一些平臺你甚至可以免費使用。

大家于是紛紛夸起了Claude 3 Haiku：

智能相當(dāng)于GPT-4，價格比GPT-3.5便宜，而且據(jù)說模型可能只有20B大小。

有網(wǎng)友表示，OpenAI不行啦，現(xiàn)在Anthropic才是老大，一時間，平臺內(nèi)外充滿了快活的空氣。

ChatGPT 一年零增長

回過頭來再看ChatGPT這邊，從最初的高光、王者，到現(xiàn)在不能說泯然眾人吧，反正多少有點寒酸了。

最近，有關(guān)統(tǒng)計平臺曝出：ChatGPT在過去一年中居然零增長！

最近一段時間，ChatGPT一直被指責(zé)懶惰、系統(tǒng)提示臃腫，而另一方面競爭也愈演愈烈——Claude 3和Gemini Pro 1.5現(xiàn)在都提供了比GPT-4多8倍的上下文長度和更好的recall能力。

對于幾乎每個ChatGPT用例，現(xiàn)在都有大量垂直化的AI初創(chuàng)公司，致力于滿足用戶的需求，而不是滿足于現(xiàn)有的ChatGPT界面和捆綁工具

它們有更好的UI選項（例如IDE和圖像/文檔編輯器）、更好的原生集成（例如用于cron重復(fù)操作）、更好的隱私/企業(yè)保護(hù)（例如用于醫(yī)療保健和金融），更細(xì)粒度的控制（GPT的默認(rèn)RAG是幼稚且不可配置的）。

以下是一些網(wǎng)友列舉了相關(guān)垂直領(lǐng)域的產(chǎn)品，以及公司的融資情況：

從某種意義上說，OpenAI的B2B和B2C部分相互競爭，這在某種程度上是良性競爭——OpenAI可以使用來自ChatGPT的RLHF數(shù)據(jù)進(jìn)行訓(xùn)練。

而新的GPT商店可以看作是，OpenAI為了抓住這些垂直化需求的嘗試。

——與其離開平臺，到處支付20美元/月，為什么不留在ChatGPT內(nèi)部而只需要支付一次，讓OpenAI將理論上的收入分配給GPT創(chuàng)作者？

對此，大部分創(chuàng)作者也很明智，一般只向ChatGPT發(fā)布精簡版的應(yīng)用，作為自己主要平臺的一個渠道。

在游戲機業(yè)務(wù)中，眾所周知，購買決策往往是由平臺獨占游戲驅(qū)動的。從某種意義上說，ChatGPT的未來會以平臺專屬模型為特色。

所以，當(dāng)Sora甚至是GPT-5公開發(fā)布時，一定會率先登陸自家的平臺，也許那將是下一輪ChatGPT的增長點。

本文轉(zhuǎn)載自：cnBeta，不代表科技訊之立場。原文鏈接：https://www.cnbeta.com.tw/articles/tech/1425246.htm

AI認(rèn)證作者

0 0

AI

英偉達(dá)開源Nemotron-70B模型，性能超越GPT-4o和Claude 3.5

近日，英偉達(dá)悄然開源了其最新的超強大模型——Nemotron-70B。一經(jīng)發(fā)布，該模型便迅速在AI社區(qū)引發(fā)轟動，其性能在多個基準(zhǔn)測試中超越了包括GPT-4、GPT-4 Turbo以…

AI
2024年10月18日
新聞

阿里通義開源模型Qwen2.5進(jìn)入大模型盲測全球前十

基準(zhǔn)測試平臺Chatbot Arena發(fā)布了最新的大模型盲測排名。10天前發(fā)布的阿里通義千問開源模型Qwen2.5再次闖入全球十強，其Qwen2.5-72B-Instruct大語言模型在榜單中位列第十，是前十名中唯一的中國模型。此外，通義千問的視覺語言模型Qwen2-VL-72B-Instruct排名第九，是得分最高的開源大模型。

潮玩君
2024年9月30日
AI

法國AI初創(chuàng)Mistral發(fā)布Pixtral 12B：多模態(tài)AI大模型亮相

法國人工智能（AI）初創(chuàng)公司Mistral于9月11日宣布推出其首款多模態(tài)AI大模型——Pixtral 12B，該模型以其強大的圖像與文本處理能力，在AI領(lǐng)域引起了廣泛關(guān)注。Pix…

AI
2024年9月12日
AI

OpenAI 推出 SearchGPT 搜索引擎，挑戰(zhàn)谷歌地位

據(jù)報道，近日，OpenAI正式宣布，其基于 GPT-4 系列 AI 模型的新搜索引擎 SearchGPT 已進(jìn)入測試階段，并計劃在未來將其功能整合至廣受歡迎的 ChatGPT 服…

AI
2024年7月26日
AI

ChatGPT首次通過圖靈測試，AI模仿人類交流能力再突破

近日，加州大學(xué)圣地亞哥分校的科學(xué)家在人工智能（AI）領(lǐng)域取得了突破性的進(jìn)展。在一項旨在評估AI模仿人類交流能力的實驗中，OpenAI的GPT-4模型在54%的時間里成功被誤認(rèn)為是人…

AI
2024年6月18日
AI

Open AI宣布訓(xùn)練新一代AI模型，目標(biāo)超越GPT-4

近日，Open AI宣布已啟動新一代旗艦人工智能模型的訓(xùn)練工作，旨在超越當(dāng)前備受矚目的GPT-4大模型，進(jìn)一步提升AI技術(shù)的能力邊界。該公司表示，新模型將作為聊天機器人、智能助手、…

AI
2024年5月29日
新聞

對于微軟Build 2024的期待：新Surface硬件與AI探險家即將亮相

隨著人工智能技術(shù)的飛速發(fā)展，各大科技公司紛紛加碼投入。在谷歌的I/O開發(fā)者大會上，AI技術(shù)大放異彩，OpenAI的GPT-4更是引發(fā)廣泛討論。現(xiàn)在，微軟即將于明日在西雅圖舉行的Bu…

聆聽
2024年5月20日
AI

Gemini 1.5 Pro vs GPT-4：AI領(lǐng)域的雙雄對決

在人工智能（AI）的戰(zhàn)場上，谷歌和OpenAI兩大巨頭始終在競爭的前沿。近期，谷歌發(fā)布了其最新的大語言模型Gemini 1.5 Pro，而OpenAI的GPT-4也早已在市場上占據(jù)…

AI
2024年5月16日
AI

Anthropic 在歐洲推出多語言生成式 AI 助手 Claude

人工智能領(lǐng)域的創(chuàng)新者 Anthropic 公司近日宣布，其先進(jìn)的生成式 AI 助手 Claude 將于當(dāng)?shù)貢r間周二正式在歐洲上線。這款備受期待的產(chǎn)品已經(jīng)在歐洲的金融和酒店等行業(yè)展現(xiàn)…

AI
2024年5月15日
AI

OpenAI聲稱GPT-4o模型可以像人一樣讓交流更自然

在人工智能領(lǐng)域，OpenAI再次引領(lǐng)了創(chuàng)新潮流。該公司近日宣布推出全新的人工智能模型GPT-4o，該模型以其多模式功能和增強的交互能力，被譽為更接近“更自然的人機交互”的里程碑式產(chǎn)…

AI
2024年5月14日
AI

OpenAI發(fā)布會預(yù)告：ChatGPT與GPT-4升級，新語音助手或亮相

在全球科技界翹首以盼之際，OpenAI宣布將于北京時間5月13日凌晨1點舉行線上發(fā)布會，展示ChatGPT和GPT-4的最新升級。此前關(guān)于SearchGPT搜索引擎的猜測和熱議，似…

AI
2024年5月13日
AI

阿里云發(fā)布通義千問2.5大模型，能力全面升級，趕超GPT-4

昨日，在阿里云AI智領(lǐng)者峰會-北京站活動中，阿里云正式發(fā)布了通義千問2.5大模型，并宣稱其在多項能力上已全面趕超GPT-4，尤其在中文語境下的表現(xiàn)尤為突出。據(jù)阿里云官方介紹，通義…

科技新聞
2024年5月10日
AI

GPT-4 Turbo vs GPT-4：誰是AI寫作領(lǐng)域的新星？

在AI技術(shù)的浪潮中，OpenAI的GPT系列模型一直站在風(fēng)口浪尖。繼GPT-4之后，短短數(shù)月內(nèi)，GPT-4 Turbo的推出再次引發(fā)了業(yè)界的廣泛關(guān)注。那么，GPT-4 Turbo與…

AI
2024年5月5日
AI

OpenAI奧爾特曼演講揭秘：GPT-5性能將遠(yuǎn)超GPT-4，迭代部署至關(guān)重要

近日，OpenAI聯(lián)合創(chuàng)始人兼首席執(zhí)行官薩姆·奧爾特曼（Sam Altman）在斯坦福大學(xué)發(fā)表了一場備受矚目的演講，重點談及了通用人工智能（AGI）的發(fā)展以及OpenAI的迭代節(jié)奏…

AI
2024年4月29日
AI

GPT-4展露黑客天賦：自主利用真實世界安全漏洞

近日，在人工智能領(lǐng)域掀起軒然大波的GPT-4大型語言模型再次刷新了人們的認(rèn)知。伊利諾伊大學(xué)厄巴納-香檳分校的四位計算機科學(xué)家最新研究發(fā)現(xiàn)，GPT-4不僅能夠理解人類語言，還能通過閱…

AI
2024年4月22日
AI

GPT-4眼科評估能力驚艷，但專家警告需審慎應(yīng)用

劍橋大學(xué)臨床醫(yī)學(xué)院的最新研究發(fā)現(xiàn)，OpenAI的GPT-4模型在眼科評估中的表現(xiàn)幾乎可與該領(lǐng)域的專家相媲美。這一突破性成果在金融時報首次報道后，引起了醫(yī)療和科技界的廣泛關(guān)注。在這…

若安丶
2024年4月21日
AI

AI模型訓(xùn)練成本飆升：GPT-4耗資7800萬美元，Gemini Ultra1.91億美元

隨著人工智能技術(shù)的飛速發(fā)展，先進(jìn)AI模型的訓(xùn)練成本也在急劇攀升。根據(jù)AI指數(shù)的最新估計，OpenAI的GPT-4模型和谷歌的Gemini Ultra模型在訓(xùn)練過程中分別耗資約780…

科技新聞
2024年4月17日
新聞

OpenAI在日本東京設(shè)立亞洲首個辦事處，并推出優(yōu)化版GPT-4模型

全球領(lǐng)先的人工智能研究機構(gòu)OpenAI近日正式宣布，在亞洲的首個辦事處正式落戶日本東京，標(biāo)志著公司業(yè)務(wù)的進(jìn)一步擴(kuò)展。OpenAI表示，此次設(shè)立辦事處旨在與當(dāng)?shù)氐恼?、企業(yè)以及研究機…

科技探索者
2024年4月16日
AI

Anthropic最新研究：Claude 3 Opus說服力比肩人類

近日，人工智能領(lǐng)域的領(lǐng)軍企業(yè)Anthropic發(fā)布了一項令人矚目的研究成果，顯示其最新語言模型Claude 3 Opus的說服力已與人類水平相當(dāng)。這一發(fā)現(xiàn)標(biāo)志著在評估語言模型說服力…

AI
2024年4月15日
AI

GPT-4 API全面開放，引領(lǐng)生成式AI應(yīng)用新篇章

在人工智能領(lǐng)域掀起新一波熱潮的GPT-4，近日宣布全面開放其API接口，標(biāo)志著生成式AI應(yīng)用進(jìn)入了一個全新的發(fā)展階段。GPT-4以其卓越的創(chuàng)造性和強大的上下文處理能力，為各行各業(yè)的…

AI
2024年4月11日

發(fā)表回復(fù)

登錄后才能評論

超越GPT-4 Claude 3超大杯成新王

相關(guān)推薦

發(fā)表回復(fù)