近日,微眾銀行推出金融行業(yè)AI智算場景首款自研交換機(jī),并首度披露高性能AI智算網(wǎng)絡(luò)解決方案。該方案實現(xiàn)了AI智算場景下從硬件層的交換機(jī)、到軟件層的網(wǎng)絡(luò)操作系統(tǒng)、再到智能網(wǎng)絡(luò)管控的全鏈路自主可控。
目前,該款交換機(jī)已在微眾銀行生產(chǎn)運(yùn)營環(huán)境正式投入使用,最高可滿足400G GPU/NPU算力卡的組網(wǎng)需求,建網(wǎng)成本節(jié)省約70%,為微眾銀行邁向AI原生奠定重要基礎(chǔ)。
大模型時代,基于海量數(shù)據(jù)的AI分布式訓(xùn)練經(jīng)常受限于“網(wǎng)絡(luò)擁塞”。特別是在基于以太網(wǎng)開展的AI分布式訓(xùn)練中,由于流量的低熵特性,傳統(tǒng)多鏈路等價負(fù)載分擔(dān)容易造成網(wǎng)絡(luò)擁塞,無法滿足金融業(yè)對高帶寬、低時延、零丟包的嚴(yán)苛要求。如果依賴外部商用單點優(yōu)化解決方案,不僅成本高昂,且無法高效、系統(tǒng)、全面地優(yōu)化升級。
面對這一難題,微眾銀行另辟蹊徑,深度拆解自身業(yè)務(wù)發(fā)展需求,面向AI智算場景,打造軟硬件全棧自主可控的高性能AI智算網(wǎng)絡(luò)解決方案,實現(xiàn)軟硬件解耦與靈活組合配置。
硬件方面,微眾銀行基于12.8T國產(chǎn)交換芯片和國產(chǎn)CPU打造專屬交換機(jī),適配國內(nèi)外主流GPU和NPU計算資源。交換機(jī)支持高達(dá)1.6T的RDMA(Remote Direct Memory Access,即“遠(yuǎn)程直接內(nèi)存訪問”)接入能力,最高能夠支撐400G 的GPU/NPU算力卡在無損以太網(wǎng)環(huán)境下的組網(wǎng)需求,為金融行業(yè)在AI算力卡選型上拓展了更多可能性。
軟件方面,微眾銀行基于開源的SONiC(Software for Open Networking in The Cloud,即“云中開放網(wǎng)絡(luò)軟件”)自研網(wǎng)絡(luò)操作系統(tǒng),創(chuàng)新性研發(fā)適應(yīng)不同組網(wǎng)架構(gòu)、可自定義的鏈路級負(fù)載分擔(dān)組件,使得大規(guī)模部署無損以太網(wǎng)更絲滑。如若鏈路發(fā)生故障,該組件能夠在毫秒之間將流量切換至備份鏈路上,極大縮短故障影響范圍與時長。
值得一提的是,針對日常AI訓(xùn)練過程,如何快速發(fā)現(xiàn)網(wǎng)絡(luò)擁塞并妥當(dāng)處理極為關(guān)鍵。為此,微眾銀行在軟件層進(jìn)一步自研智能網(wǎng)絡(luò)管控系統(tǒng),為AI智算網(wǎng)絡(luò)提供智能化調(diào)度的“全知視角”,實現(xiàn)全網(wǎng)設(shè)備擁塞指標(biāo)秒級采集監(jiān)控,精準(zhǔn)定位擁塞業(yè)務(wù)流量,并自動調(diào)度至最優(yōu)路徑。
此前,微眾銀行在利用開源SONiC自研網(wǎng)絡(luò)操作系統(tǒng)的同時,將網(wǎng)絡(luò)協(xié)議性能優(yōu)化方案開源反哺SONiC社區(qū),成為上榜SONiC官方貢獻(xiàn)組織名單的唯一金融機(jī)構(gòu),助力中國金融科技提升國際影響力。下一步,微眾銀行將持續(xù)迭代AI智算網(wǎng)絡(luò)解決方案,總結(jié)提煉在智能網(wǎng)絡(luò)管控方面的成熟經(jīng)驗,計劃未來形成標(biāo)準(zhǔn)化公共組件面向全球開源共享,助力AI智算網(wǎng)絡(luò)高質(zhì)量發(fā)展。
本文轉(zhuǎn)載自:,不代表科技訊之立場。原文鏈接:http://show.wolaioa.com.cn/preview/6hoo00oUyXTWZMymA18goo00oVXHQQ.html