大模型2025三大爭議:技術(shù)、價格、AGI

在大模型“撞墻論”不絕于耳的當下,行業(yè)比任何時候都更為迫切地渴求探索、渴求創(chuàng)新。

步入2025年這短短一個月之內(nèi),全球大模型玩家仿佛集體“沖業(yè)績”,OpenAI、谷歌、DeepSeek等玩家密集發(fā)布了一系列新品。

而縱觀整個大模型行業(yè),幾乎是有史以來的第一次,大模型行業(yè)內(nèi)部出現(xiàn)了大規(guī)模分歧與非共識:

1.應(yīng)用 vs技術(shù)——基礎(chǔ)模型的更新是否已經(jīng)基本停滯?行業(yè)創(chuàng)新的重點轉(zhuǎn)移到應(yīng)用?

2.價格戰(zhàn) vs價值戰(zhàn)——“價格戰(zhàn)”打不打?怎么打?創(chuàng)業(yè)公司打得過嗎?

3.單模態(tài) vs多模態(tài)——對于AGI來說,多模態(tài)究竟有多重要?

在這十字路口前,每家大模型企業(yè),都自愿或是被迫地,選擇了自己的站位。

例如,OpenAI的GPT-o1試圖用強化學習為Scaling Law“續(xù)命”,谷歌Titans開始探索全新的模型記憶力架構(gòu);但同時也有更多玩家開始將注意力轉(zhuǎn)至應(yīng)用優(yōu)化、功能更新、用戶留存上。

作為國內(nèi)“大模型六小龍”之一,MiniMax此前一直以產(chǎn)品力強而聞名業(yè)內(nèi),在這個時間點也通過開源和一系列更新表達了自己的態(tài)度。

2025年1月以來,MiniMax在十天內(nèi)連發(fā)四個AI模型,包括基礎(chǔ)語言大模型MiniMax-Text-01和視覺多模態(tài)大模型MiniMax-VL-01,以及視頻模型S2V-01、語音模型T2A-01。而兩個MiniMax-01系列模型,更是公司有史以來首度開源。

創(chuàng)始人在近期的媒體訪談中也直接表示,“如果重新選,第一天就應(yīng)該開源”。一家商業(yè)公司從開源走向閉源是常見的,從大家調(diào)侃“OpenAI變CloseAI”可見一斑,但從閉源走向開源卻不多。

從MiniMax這一系列更新可以看出來,這家公司正試圖通過開源、創(chuàng)新、技術(shù)驅(qū)動的路徑,扭轉(zhuǎn)市場對其的“只有產(chǎn)品強”的印象。創(chuàng)始人表示,“技術(shù)品牌之所以重要,本質(zhì)也是因為這個行業(yè)最大的驅(qū)動力是技術(shù)進化”。

同時,面對當前大模型行業(yè)的三大“非共識”,MiniMax也試圖通過這一系列模型更新,給出自己的答案。

大模型2025三大爭議:技術(shù)、價格、AGI

卷應(yīng)用vs 卷技術(shù)

行業(yè)再次來到“Transformer時刻”

從去年以來,大模型行業(yè)內(nèi)部一個顯著的趨勢是——底層技術(shù)突破開始變慢。

OpenAI的GPT-5屢屢跳票,時至今日仍不見蹤影。AI三大要素算力、算法、數(shù)據(jù)均出現(xiàn)了不同程度的發(fā)展停滯,2024年的模型能力似乎停止增長。

與之相對應(yīng)的,是大模型應(yīng)用“投流大戰(zhàn)”的爆發(fā)。

根據(jù)AppGrowing數(shù)據(jù),自從月之暗面(Kimi)打響國內(nèi)大模型“投流大戰(zhàn)”以來,國內(nèi)前十款大模型產(chǎn)品合計投放廣告超過625萬條,按市場價折算,金額達到了15億元人民幣。

以至于坊間戲稱:“大模型行業(yè)里唯一賺到錢的是B站、抖音、小紅書”;“共享單車補貼戰(zhàn)好歹普惠用戶,現(xiàn)在賺錢的只有廣告平臺?!?/p>

落到應(yīng)用層面,不少企業(yè)選擇了專攻APP產(chǎn)品、定制合作項目、為政企定制小模型等方案;而在模型技術(shù)層面,無論是國內(nèi)還是海外,其大部分都統(tǒng)一選擇了較為安全的“對標GPT”方案,在技術(shù)路徑上全面跟隨OpenAI——而當OpenAI疑似“撞墻”后,整個行業(yè)看上去都放慢了腳步。

1月15日,MiniMax發(fā)布并開源了最新一代MiniMax-01系列模型,包含基礎(chǔ)語言大模型MiniMax-Text-01和視覺多模態(tài)大模型MiniMax-VL-01。

與之同步公開的一份68頁技術(shù)論文《MiniMax-01:Scaling Foundation Models with Lightning Attention》,更是幾乎在整個AI技術(shù)圈都引起討論。

大模型2025三大爭議:技術(shù)、價格、AGI

硅谷科技媒體VentureBeat及AI科技學者、投資人與創(chuàng)作者評價MiniMax-01系列模型的架構(gòu)創(chuàng)新及長文本能力

從參數(shù)上來看,MiniMax-01總參數(shù)規(guī)模達到4560億,其綜合性能在多個主流評測集上與GPT-4o、Claude-3.5-Sonnet等SOTA(State-of-the-Art,業(yè)內(nèi)頂尖)模型持平,支持400萬token的輸入,可輸入長度是GPT-4o的32倍、Claude-3.5-Sonnet的20倍。

在測評集LongBench V2的最新結(jié)果中,MiniMax-Text-01綜合評分僅次于OpenAI的o1-preview和人類,位列第三。

大模型2025三大爭議:技術(shù)、價格、AGI

Long Bench V2排行榜,LongBench V2是面向現(xiàn)實情景進行長上下文多任務(wù)深入理解和推理的測試集

如果只是模型性能很強,MiniMax-01并不會在AI研究人員中引發(fā)如此廣泛的關(guān)注。

引人注目的點在于,MiniMax第一次在一個4560億參數(shù)的超大規(guī)模商用模型上,引入了有別于傳統(tǒng)Transformer架構(gòu)的線性注意力(Linear Attention)機制,以極低的算力成本,試圖為困擾著整個大模型行業(yè)的難題提供一個新的解題思路。

MiniMax-01針對大模型最底層、最核心的Transformer架構(gòu)進行了重構(gòu),在傳統(tǒng)方案(下圖上半部分)的基礎(chǔ)上,引入了Linear Attention線性注意力,相當于從“分子”層面對物質(zhì)進行改變。

這也是為什么,這次MiniMax-01的開源會在AI研究圈引起如此大的關(guān)注。

大模型2025三大爭議:技術(shù)、價格、AGI

MiniM ax-01核心 架構(gòu)示意圖

線性注意力技術(shù)并不是MiniMax第一個提出的,正如大語言模型技術(shù)并不是OpenAI第一個提出的,但它們卻是第一個大膽、堅定地對其進行大規(guī)模應(yīng)用,并圍繞其進行了從算法到框架的全面創(chuàng)新,最終取得顛覆式成功的玩家。

正是這種針對最底層技術(shù)的創(chuàng)新,使得MiniMax-01能夠以GPT-4o十分之一的算力成本,達到比肩業(yè)內(nèi)SOTA的性能,以及國際第一的400萬token超長上下文。

在技術(shù)論文的最后,MiniMax的研究人員表示,MiniMax-01仍有八分之一的部分沿用了傳統(tǒng)Transformer技術(shù)思路。當前,他們正在研究一套更高效的全新架構(gòu),最終完全去掉傳統(tǒng)方案,從而實現(xiàn)無限制上下文窗口。

這也就意味著,如果MiniMax成功了,大模型將從此不再受限于輸入長度,人類離AGI(通用人工智能)前進了一大步。

正如當年BERT橫空出世,大模型產(chǎn)業(yè)迎來“Transformer時刻”一樣;從某種程度上來說,我們也許正在見證“第二個Transformer時刻”。

大模型2025三大爭議:技術(shù)、價格、AGI

價格戰(zhàn)vs 價值戰(zhàn)

算力成本居高不下,“人人都在為英偉達打工”

如果要回顧2024年大模型行業(yè)發(fā)展,有一個關(guān)鍵詞絕對不容錯過——“價格戰(zhàn)”。

這一領(lǐng)域的戰(zhàn)場主要集中在B端,更精確來說,是為to B用戶提供大模型API服務(wù)并按量計價的大模型供應(yīng)商們。

2024年5月初,國內(nèi)初創(chuàng)企業(yè)DeepSeek(深度求索)在發(fā)布最新模型DeepSeek-V2的同時,突然大幅調(diào)低了API價格,其每百萬token輸入價格低至1元,接近于當時GPT-4 Turbo價格的百分之一。此后,字節(jié)跳動、百度、阿里、騰訊、智譜AI、科大訊飛等行業(yè)玩家全面跟進,一場轟轟烈烈的大模型價格戰(zhàn)就此打響。

與之相對應(yīng)的,卻是居高不下的算力價格。

自ChatGPT于2022年底火爆以來,本已接近供不應(yīng)求的英偉達GPU芯片,在全球AI大模型爆火的背景下,價格也進一步飆升,帶動著英偉達公司市值一路突破3萬億美元,超越蘋果,成為僅次于微軟的全球第二大市值企業(yè)。

GPU不僅價格高昂,并且有價無市,2023年甚至出現(xiàn)過海外AI初創(chuàng)企業(yè)用英偉達GPU抵押融資23億美元的新聞。由于算力昂貴而稀缺,即便在科技巨頭內(nèi)部,也有不少部門為集團GPU算力分配爭得頭破血流——不少大模型從業(yè)人員戲稱“人人都在為英偉達打工”。

一邊是高昂的算力成本,另一邊卻是慘烈的價格大戰(zhàn),夾在其中的大模型廠商兩相為難。

不過并非沒有解法。

答案似乎有些老生常談——技術(shù)帶來的問題,終究還是要回到技術(shù)找解法。

以DeepSeek為例:與MiniMax類似,DeepSeek也是堅定不移的“卷技術(shù)”派。2024年,在對技術(shù)不斷優(yōu)化后,其推出的V3模型參數(shù)量達到了671B,訓練成本僅為557.6萬美元,對比之下,2020年的GPT-3訓練成本已經(jīng)接近1200萬美元,GPT-4的訓練成本更是超過1億美元。

事實上,模型訓練成本的降低不僅與模型算法有關(guān),它涵蓋了算力和應(yīng)用的中間層的多個步驟,涉及算法、架構(gòu)、硬件、軟件、工具鏈的優(yōu)化與調(diào)度,一般稱為AI Infra(AI基礎(chǔ)設(shè)施)。在算力成本居高不下的背景下,AI Infra的首要目標是優(yōu)化算力資源,在保證性能的同時盡可能降低模型部署成本。

而MiniMax-01所引入的Linear Attention技術(shù),本質(zhì)上是通過算法降低矩陣輸入復(fù)雜度,從而降低算力成本。與此同時,MiniMax還引入了數(shù)據(jù)打包(Data-packing)、線性注意力序列并行性(LASP+)、多級填充(Multi-level Padding)等一系列技術(shù),從數(shù)據(jù)、算法、到GPU通信間進行了全面優(yōu)化,使得其在英偉達H20 GPU上機器浮點利用率(MFU)高達75%,極大降低了模型的訓練與推理成本,其輸入價格僅為1元/百萬token,是GPT-4o的十分之一。

在被媒體問到“MiniMax過去一年比較滿意的技術(shù)成果是什么?”時,MiniMax創(chuàng)始人的回答是:AI Infra與算力優(yōu)化,以及多模態(tài)。

大模型2025三大爭議:技術(shù)、價格、AGI

單模態(tài)vs 多模態(tài):我們離AGI還有多遠?

多模態(tài)可能是業(yè)內(nèi)分歧最小,但競爭最為激烈的領(lǐng)域。

模態(tài)(Modal)是計算機用語,可以理解為計算機和人之間的感知交流模式的分類——如文字、圖像、聲音、視頻等。

目前除了極少數(shù)堅持單模態(tài)的玩家外,市場上的大部分AI企業(yè)都會瞄準多模態(tài)賽道,最基礎(chǔ)的是文字、圖像兩個賽道,涉獵更多的則會涵蓋音頻、視頻、3D建模等等。

以語音為例,1月20日,MiniMax發(fā)布T2A-01系列語音大模型,支持17種語言,目前已經(jīng)上線其海螺語音產(chǎn)品,面向所有用戶開放。

合成效果可以看看下面的示意視頻。

從視頻的16秒開始,在不看畫面的情況下,你大概也能準確判斷出說話者的性別、年齡與情緒:白發(fā)蒼蒼的老人、堅毅認真的女性、憤怒的青少年、稚嫩天真的孩童,語音語調(diào)里有著各自的悲傷、興奮、喜悅、抑揚頓挫。

文本轉(zhuǎn)語音其實是個老技術(shù)了,此前的發(fā)聲效果一直很生硬,無法像人類一樣控制語調(diào)的情緒起伏、抑揚頓挫。谷歌翻譯還曾因為發(fā)音太過機械,一度成了互聯(lián)網(wǎng)熱梗。

MiniMax這次上線的語音大模型基本已經(jīng)到了商用水準,AI有聲書、廣播劇、動畫、視頻配音這些場景目前看來都能夠覆蓋。

而比語音大模型更受關(guān)注的,則要數(shù)視頻大模型。

2024年2月,Sora橫空出世,帶動全球AI視頻大模型開始“狂飆”。不過,在此期間行業(yè)其他玩家的視頻生成大模型不斷涌現(xiàn),Sora在發(fā)布后卻始終處于“期貨”狀態(tài),直到12月才正式推出。

目前AI視頻大模型領(lǐng)域有兩大主流技術(shù)路徑:文生視頻、圖生視頻。

二者各有優(yōu)劣,文生視頻(Text-to-Video)主流采用Diffusion技術(shù),擁有極好的“發(fā)散思維”能力,用戶可以通過文本描述生成任何想象中的視頻內(nèi)容;但另一方面模型訓練和推理的計算復(fù)雜度高,而且視頻主體穩(wěn)定性極差——尤其是人物的面部。

圖生視頻(Image-to-Video)與其相反,模型將根據(jù)用戶輸入的圖片生成視頻內(nèi)容,一個典型的應(yīng)用場景就是“讓老照片動起來”,其相比文生視頻主體穩(wěn)定性更好,計算資源需求更低,但視頻自由度嚴重受限。

不過,MiniMax在1月10日發(fā)布的最新視頻模型S2V-01卻打破了兩者間的壁壘,其自研基于單張圖片的主體參考功能,用戶在上傳一張圖片創(chuàng)建參考角色后,模型會將圖片中的主體視覺信息抽取出來,再根據(jù)用戶的文本Prompt進行視頻生成,在保證視頻主體穩(wěn)定的同時,將創(chuàng)意表達得更靈活。

以上為海螺AI用戶創(chuàng)作案例。提示詞:一名男性警官打開車門,從警車里出來。鏡頭跟隨這名男子,保持近景,聚焦于男子的面部。這名男子穿著警服。男子的表情從平靜變?yōu)橛泄粜?。城市被夜晚的場景包圍,周圍有幾輛警燈閃爍的警車。

以上為海螺AI用戶創(chuàng)作案例。提示詞:末日廢土的九龍城寨,一個退伍老兵,牽著一條狗,警惕性的在街邊移動著,躲避天空中不時飛過的巡邏無人機,不遠處還傳來類螳螂的機器人(隱約看見)在街邊與反抗軍對峙的開槍聲。

尤其如下圖所示,是在用人物特寫圖像生成視頻時,S2V-01能夠保證極高程度的人物五官、面部細節(jié)穩(wěn)定、自然。

尤為值得一提的是,下圖人物的眉心、臉頰、唇角各有一顆痣,海螺AI所生成的視頻不僅能夠清晰還原參考圖中痣的細節(jié),還能在不同鏡頭中保持其位置的一致性——在目前所有AI視頻生成大模型中,這可能是第一個能做到的。

大模型2025三大爭議:技術(shù)、價格、AGI
大模型2025三大爭議:技術(shù)、價格、AGI
大模型2025三大爭議:技術(shù)、價格、AGI

海外平臺上,創(chuàng)作者們對S2V-01表現(xiàn)出極高熱情

值得關(guān)注的是,MiniMax-S2V-01模型對于視覺和文字信息的處理方式,非常接近人類。

事實上,多任務(wù)、多語境、多模態(tài)是AI界“冠上明珠”——通用人工智能(AGI)——的幾大主要研究方向。

在AI界的目標中,AGI是一種極其復(fù)雜、靈活的人工智能,不僅能完成圖像分類或跨語種文本翻譯等任務(wù),還能模擬人類分析、策劃、創(chuàng)造等一切認知能力。

不過,多模態(tài)并非是當前唯一的技術(shù)路徑,也有技術(shù)流派將語言大模型認定為AGI的通路。不過就目前而言,在行業(yè)尚未達成明確AGI共識的當下,Agent(智能體)是個目標更明確的關(guān)鍵節(jié)點。

隨著大模型底層技術(shù)的發(fā)展,各行各業(yè)對Agent能力要求也在不斷提高,任務(wù)變得越來越復(fù)雜、數(shù)據(jù)量越來越龐大,相應(yīng)而言,大模型本身不僅需要更長的上下文處理能力,同時也需要越來越“像人”,不斷提升其對圖像、視頻、聲音等多模態(tài)信息的處理能力。

2025年,可能是AI Agent爆發(fā)的一年。

大模型2025三大爭議:技術(shù)、價格、AGI

結(jié)語

截止至2024年12月,根據(jù)AI產(chǎn)品榜數(shù)據(jù),MiniMax旗下的AI內(nèi)容社區(qū)Talkie以2977萬的月活躍用戶數(shù),成為全球第一大AI內(nèi)容社區(qū)——這是中國AI廠商第一次在海外超過同類應(yīng)用,登頂全球第一。

按理來說,作為這場比賽中的贏家,MiniMax應(yīng)該比任何人都要擁護“卷應(yīng)用”。

但很有意思的是,MiniMax創(chuàng)始人在最近接受媒體采訪時,卻拋出了“中國人工智能產(chǎn)業(yè)過去一兩年走入了巨大的誤區(qū):認為用戶越多,模型能力提升越快。這也導(dǎo)致企業(yè)為了有更多用戶,就花大量的錢來買流量”的觀點,引發(fā)了業(yè)內(nèi)激烈討論。

坦白說,他可能是對的。

一直以來,MiniMax都是大模型行業(yè)里一個非常獨特的存在。

一個事實是,全球許多大模型公司基本都在2022年底ChatGPT火了之后才成立,但MiniMax則早在2021年底就成立了。這也導(dǎo)致當年ChatGPT突然爆火之后,所有人都懵了,回過頭來四處打聽這個MiniMax到底是何方神圣。

在技術(shù)路徑上,MiniMax也始終有些“特立獨行”。

2023年,彼時國內(nèi)市場還是Dense(稠密)模型的天下,MiniMax卻將80%以上的算力和資源全部投入MoE(混合專家)模型的開發(fā)中,于2024年初推出了國內(nèi)第一個MoE大模型。

事后,MiniMax曾經(jīng)透露,當時公司沒有準備任何MoE以外的備選計劃。

一年后來看,MiniMax賭對了。如今,MoE路徑已經(jīng)成為各家共識,尤其在模型規(guī)模、計算規(guī)模越來越大的當下,混合專家技術(shù)已成為模型大規(guī)模部署必不可少的核心技術(shù)。

在行業(yè)普遍選擇跟隨GPT-o1路徑的當下,MiniMax卻大膽地瞄準了困擾全行業(yè)的“Transformer撞墻”問題,通過底層架構(gòu)的創(chuàng)新,用有限的算力成本達到真正可以比肩國際領(lǐng)軍模型的效果。

用戶從來都是用腳投票的。

無論是文本、圖像、語音還是視頻,每當模型能力、處理速度有重大提升時,這一提升都會真切地反映在產(chǎn)品與用戶體驗中。MiniMax曾經(jīng)透露,每當模型能力變強后,產(chǎn)品內(nèi)用戶的留存表現(xiàn)和使用深度都有著顯著提升。

從創(chuàng)業(yè)第一天起,MiniMax就是一個集合了大量“非共識”的存在,它在業(yè)務(wù)選擇、技術(shù)路線、AGI實現(xiàn)路徑上都有著獨立而清晰的判斷,不焦慮,也不跟風,敢于在非共識路上突破上限、做難而正確的事。

當前的大模型產(chǎn)業(yè),已經(jīng)進入了比賽的下半場,所有“低處的果子”都已被摘光,僅靠跟風與模仿,幾乎毫無勝算。

靠技術(shù)創(chuàng)新打開的市場,終究還是要靠技術(shù)創(chuàng)新站穩(wěn)腳跟。

本文轉(zhuǎn)載自:,不代表科技訊之立場。原文鏈接:https://36kr.com/p/3135411079535110

陳晨陳晨管理團隊

相關(guān)推薦

發(fā)表回復(fù)

登錄后才能評論