大模型技術(shù)正加速走向商業(yè)應用。然而,真正將大模型落地企業(yè)場景的過程中,問題遠比想象中復雜。
目前,常見的主流大模型多采用數(shù)據(jù)與推理一體化的模式,這種模式難以持續(xù)不斷地實時學習企業(yè)業(yè)務知識,是大模型商業(yè)化的核心痛點之一。一方面,企業(yè)的數(shù)據(jù)是訓練模型成為行業(yè)專家的基礎,但數(shù)據(jù)外流存在安全隱患,企業(yè)對公有云方案存疑;另一方面,企業(yè)自行訓練大模型成本高昂,不僅需要大規(guī)模算力和人才支持,傳統(tǒng)的微調(diào)模式還可能削弱模型的通用能力,使得整體效益難以為繼。
OpenAI首席執(zhí)行官薩姆·奧特曼曾在麻省理工學院的一次對話中提到,GPT-4在推理速度、算力成本等方面存在瓶頸,GPT-5將嘗試“數(shù)據(jù)與推理分離”的新策略。面對相似的問題,中國企業(yè)同樣在尋找可行路徑。
傳神語聯(lián)以“雙網(wǎng)絡架構(gòu)”為核心,推出了“數(shù)推分離”大模型技術(shù)。用副總裁藺偉的話來說,這種架構(gòu)好比“兩個協(xié)同聯(lián)動的大腦”:一個負責學習客戶的數(shù)據(jù),確保動態(tài)管理和迭代訓練;另一個作為預訓練的推理網(wǎng)絡,專注于高效的推理和泛化能力。
不同于主流的技術(shù)路線,“數(shù)推分離”大模型不再一味追求大參數(shù)、海量數(shù)據(jù)的暴力增長,而是通過算法和架構(gòu)的優(yōu)化,讓企業(yè)以更低成本實現(xiàn)更高效的大模型能力。身處百模大戰(zhàn)中,傳神語聯(lián)為什么走向了一條與主流路徑不同的技術(shù)路線?又憑什么能在這條與眾不同的路上實現(xiàn)突破?(袁寧)
以下為《網(wǎng)易科技》與傳神語聯(lián)副總裁藺偉的交流,內(nèi)容經(jīng)編輯整理。
網(wǎng)易科技:傳神語聯(lián)相比其他大模型公司,技術(shù)優(yōu)勢體現(xiàn)在哪里?
藺偉: 我們的技術(shù)優(yōu)勢主要體現(xiàn)在以下幾點:
一是雙網(wǎng)絡架構(gòu):傳統(tǒng)大模型通常采用單網(wǎng)絡架構(gòu),將預訓練網(wǎng)絡與用戶數(shù)據(jù)網(wǎng)絡混合在一起。這種方式在處理用戶動態(tài)數(shù)據(jù)時效率較低,同時可能導致基礎網(wǎng)絡退化。我們創(chuàng)新性地將兩者分離,用戶數(shù)據(jù)通過獨立的網(wǎng)絡處理,既能快速適應企業(yè)知識更新,又避免影響基礎網(wǎng)絡的性能和通用性。
二是高效的智慧轉(zhuǎn)化能力:我們的算法特別注重數(shù)據(jù)向智慧的轉(zhuǎn)化能力。簡單來說,相同的數(shù)據(jù)量,我們的模型能提煉出更高密度的知識和邏輯,而不是僅堆積冗余數(shù)據(jù)。
三是全棧自主研發(fā):我們團隊從底層算法庫到框架完全自主研發(fā),這讓我們在調(diào)整模型結(jié)構(gòu)、優(yōu)化算法時擁有極高的靈活性。相比于依賴開源框架的企業(yè),我們可以更快地響應企業(yè)需求,提供定制化解決方案。
網(wǎng)易科技:傳神語聯(lián)為什么會走向一條與主流方向不同的技術(shù)路線?
藺偉:回答這個問題,我們需要先理解不同公司背景的差異。以OpenAI為例,它本質(zhì)上是一個科研機構(gòu),而非盈利機構(gòu)。從一開始,OpenAI的目標就是專注于前沿技術(shù)的探索,背后有充足的資金和資源支持。它無需考慮商業(yè)化帶來的盈利壓力,可以采取‘暴力美學’的方式,不計成本地追求技術(shù)上的極致。
對傳神語聯(lián)而言,我們的資源有限,必須從一開始就注重效率和可行性。我們的目標是用更低的成本實現(xiàn)同樣的智能效果,因此在技術(shù)選擇上,我們更加注重算法優(yōu)化和架構(gòu)創(chuàng)新,而非單純依靠堆算力和擴參數(shù)規(guī)模。我們清楚地計算過技術(shù)與商業(yè)化之間的賬,明白只有在有限資源的情況下找到一條獨特的路徑,才能實現(xiàn)可持續(xù)發(fā)展。
這種思路使我們走上了與OpenAI不同的技術(shù)路徑。這也解釋了為什么中國的大型科技公司,如華為和阿里巴巴,可以嘗試類似OpenAI的路徑,而對于像傳神語聯(lián)這樣的創(chuàng)業(yè)公司來說,我們必須兼顧技術(shù)路徑和商業(yè)化需求,找到二者的平衡點。因為盡管從技術(shù)角度看,“暴力美學”是一條捷徑,但從商業(yè)角度,它卻是一條困難重重的道路。這也是為什么我們能夠在技術(shù)上走出一條獨特道路的原因。
網(wǎng)易科技:同樣的技術(shù)路線還有別的企業(yè)在做嗎?
藺偉:在美國,已經(jīng)有不少企業(yè)在探索類似的基于非標準Transformer架構(gòu)的小參數(shù)模型。比如,微軟正在研發(fā)自己的模型Phi-3,這個模型在Transformer架構(gòu)基礎上做了優(yōu)化與創(chuàng)新。此外,還有像‘曼巴’(Mamba)這樣的新興技術(shù),也在嘗試不同的路徑,避免完全依賴當前主流的架構(gòu)設計。
我覺得對于算法架構(gòu)的優(yōu)化或探索,是行業(yè)發(fā)展的必然趨勢。從長遠來看,無論是出于降低成本的需求,還是提升模型效率的考慮,大模型技術(shù)的創(chuàng)新都會不斷深入。即便是OpenAI,未來可能也會調(diào)整其現(xiàn)有的架構(gòu),嘗試更加高效和低成本的技術(shù)路線。
網(wǎng)易科技:能否介紹一下傳神語聯(lián)的核心技術(shù)團隊?
藺偉: 自公司創(chuàng)立以來,傳神就選擇了國產(chǎn)原創(chuàng)這條路。我們的核心技術(shù)團隊也專注在AI技術(shù)領域,他們主要專注于重構(gòu)和優(yōu)化大模型算法的基礎架構(gòu),曾經(jīng)參與過中國第一代指紋識別算法的開發(fā)。之后他們將目光轉(zhuǎn)向自然語言處理,并在傳神語聯(lián)的平臺上不斷創(chuàng)新。
網(wǎng)易科技:如果算生意賬的話,對于企業(yè)而言,token成本其實一直是在下降的,這方面我們有優(yōu)勢嗎?
藺偉:那是公有云,我認為絕大部分央國企幾乎不會用公有云或API的方式,一定是私有部署。因為所有部署都要考慮安全的問題,中小企業(yè)肯定不是我們的市場,我們還是做中大型企業(yè)的思維。
網(wǎng)易科技:傳神語聯(lián)的商業(yè)模式是怎樣的?
藺偉: 目前主要還是通過大客戶進行私有云部署的模式,為他們提供知識管理相關的解決方案。
網(wǎng)易科技:這部分市場有多大?
藺偉:我們可以類比中國的計算機市場或服務器市場。服務器大多是企業(yè)直接采購用于內(nèi)部部署,而不是依賴IDC(互聯(lián)網(wǎng)數(shù)據(jù)中心)或公有云。類似地,大模型市場也分為兩部分:一部分是面向公有云服務的市場,另一部分是企業(yè)私有化部署的市場。
我們專注的是企業(yè)私有化部署的領域,至少有數(shù)百億的潛力空間,能夠容納許多公司在其中找到定位。
網(wǎng)易科技:您怎么看待模型層“贏家通吃”的觀點?
藺偉: 我不認同這種觀點。大模型并不像互聯(lián)網(wǎng)平臺那樣具有網(wǎng)絡效應,其本質(zhì)更接近于計算機行業(yè)。即便是同一行業(yè)的不同企業(yè),其對模型的需求也千差萬別。未來的大模型市場不會是一家獨大的局面,而是多種模型共存,分別服務于不同的場景和需求。
網(wǎng)易科技:傳神語聯(lián)2024年主要在做什么?明年的重點事項是什么?
藺偉:我們此前主要在做的就是把我們雙網(wǎng)這個架構(gòu)給做起來了,我們拋棄了做參數(shù)這件事情,選擇了這條道路。2025年是AI大模型步入企業(yè)應用落地的關鍵時期。明年主要是把它兌現(xiàn),變成產(chǎn)品,實現(xiàn)商業(yè)化。未來,傳神也會更加重視對模型“智慧”的深度挖掘,聚焦持續(xù)實時學習客戶數(shù)據(jù)的能力,通過數(shù)推分離技術(shù),賦能企業(yè)大模型落地應用,并展現(xiàn)更多元的商業(yè)新范式。
本文轉(zhuǎn)載自:,不代表科技訊之立場。原文鏈接:https://www.163.com/tech/article/JKNS5NR100098IEO.html