焱融科技:全閃F9000X開啟存儲系統(tǒng)的大模型時代

存儲系統(tǒng)對大模型具有極其重要的作用,關(guān)乎數(shù)據(jù)存儲與管理、數(shù)據(jù)預處理、訓練效率、推理性能、模型擴展等諸多方面。

       但單從這些性能指標來看,我們可能無法直觀感受到其關(guān)鍵性。那么,到底什么樣的存儲系統(tǒng)才能為大模型所用?

       基于全球權(quán)威AI基準測評廠商MLCommons公布的MLPerf v1.0存儲性能基準測試,其中提到了帶寬、模擬GPU數(shù)量以及GPU利用率等指標。這些指標與大模型的訓練、推理息息相關(guān)。

這一波大模型熱潮的基本特征之一就是,既需要處理海量數(shù)據(jù)保證訓練效率,同時在實際應用中,大模型需要快速對輸入數(shù)據(jù)進行推理給出結(jié)果,這之中的關(guān)鍵就是——高帶寬,高帶寬存儲可以實現(xiàn)快速數(shù)據(jù)傳輸、實時響應,同時面對大模型參數(shù)規(guī)模越來越大、多模態(tài)數(shù)據(jù)增加等情形,高帶寬也可以支持其模型運行。

       然而,部分存儲系統(tǒng)受限于硬件性能、系統(tǒng)架構(gòu)、并發(fā)訪問壓力過大,一定程度上會影響數(shù)據(jù)處理效率、占用存儲空間。

       同時,在給定的訓練模型和GPU型號下,存儲系統(tǒng)能夠支持的GPU數(shù)量也是衡量其性能的關(guān)鍵指標之一。

通過模擬GPU數(shù)量,能在部署中評估不同存儲配置下的大模型訓練性能和成本效益,幫助企業(yè)選擇最適合的存儲和GPU組合。

       反之,如果存儲系統(tǒng)模擬GPU數(shù)量不夠,不僅會使得模型的訓練時間大幅延長,還會導致模型收斂困難,同等規(guī)模的GPU集群下,需要引入更多的存儲節(jié)點才能滿足計算的需要,存儲的成本會隨之提高,同時也在一定程度上限制模型向更大規(guī)模和更高復雜度發(fā)展。

       GPU利用率高則可以加速矩陣運算、張量運算等大量復雜計算任務,減少訓練周期的同時,讓硬件資源被充分利用起來,降低能源消耗。而低GPU利用率可能導致GPU長時間處于低負載運行狀態(tài),GPU 算力和能源浪費較大。

       洞察到這些發(fā)展趨勢的焱融科技,去年年底立項,今年9月拿出了面向大模型時代的里程碑產(chǎn)品——焱融全閃F9000X。

焱融科技:全閃F9000X開啟存儲系統(tǒng)的大模型時代

       該產(chǎn)品搭載了其自研的高性能分布式并行文件存儲YRCloudFile,經(jīng)實測,3節(jié)點存儲集群的性能可達到了750萬IOPS和270GBps帶寬,滿足大規(guī)模訓練及高算力場景的需求。

       在帶寬、模擬GPU數(shù)量、GPU利用率這三大關(guān)鍵指標中拿下第一的焱融全閃F9000X,無疑成為大模型訓練、推理過程中選擇存儲系統(tǒng)的最優(yōu)解之一。

這背后的關(guān)鍵正是焱融科技所做的針對性優(yōu)化。

       為了保證存儲系統(tǒng)的性能匹配大模型訓練、推理業(yè)務場景的需求,張文濤稱,面向高性能存儲場景,性能就是他們最優(yōu)先考慮的。研發(fā)人員進行了NUMA的親和性、端到端的zero-copy(零拷貝)等優(yōu)化。

       但對于企業(yè)而言,一方面,存儲系統(tǒng)的性能固然重要,另一方面讓存儲系統(tǒng)變得好用、易用也同等關(guān)鍵。

       因此,焱融科技還打造了相對應的解決方案。大模型時代,企業(yè)需要基于多個智算中心進行大模型訓練、推理,那就意味著企業(yè)的數(shù)據(jù)需要在多云間進行流轉(zhuǎn)。張文濤解釋說,數(shù)據(jù)具有粘性,采用對應的解決方案能幫助加速數(shù)據(jù)的多云流轉(zhuǎn),減少企業(yè)使用和運維的復雜度。

       大模型在問世之后,基礎設施投入巨大,因此企業(yè)對成本更為敏感,存儲系統(tǒng)就需要兼顧性能和降本。焱融科技通過全閃和大容量存儲相結(jié)合的形式,拿出了高性能、低成本的解決方案。

       綜合來看,整個大模型產(chǎn)業(yè)的急速發(fā)展,對存儲系統(tǒng)提出了更高的要求,性能、穩(wěn)定性和成本成為存儲廠商必須越過的門檻。

       深諳技術(shù)創(chuàng)新與企業(yè)需求的焱融科技,在拿出更強計算能力、更高性能數(shù)據(jù)存儲的方案后,為大模型時代的企業(yè)探索出了一條行之有效的路徑。

本文轉(zhuǎn)載自:,不代表科技訊之立場。原文鏈接:http://articlef.yulepops.com/article/m-164/1/312202412041323295711494.html

陳晨陳晨管理團隊

相關(guān)推薦

發(fā)表回復

登錄后才能評論