當前,在各大AI大模型激烈競爭的浪潮下,大模型參數(shù)正在呈指數(shù)級激增、上下文長度直指百萬Token。IDC預計,2025年全球數(shù)據(jù)量將逼近175ZB大關。龐大的數(shù)據(jù)量讓傳統(tǒng)存算一體架構“緊耦合”的固有瓶頸日益凸顯,數(shù)據(jù)存儲與計算資源捆綁配置,要么“大馬拉小車”造成資源閑置,要么難以應對峰值負載,成為了企業(yè)數(shù)字化轉型的核心難題。
在此背景下,存算分離技術迎來產業(yè)化與規(guī)?;碾p重爆發(fā),不僅破解了困擾行業(yè)多年的“內存墻”難題,更重構了算力基礎設施的配置邏輯。
打破“捆綁” 重構算力配置邏輯
“過去我們的算力資源配置,就像買手機必須捆綁固定套餐,不管用不用得上,都得全額付費?!睒I(yè)內人士向記者表示,在傳統(tǒng)存算一體架構下,數(shù)據(jù)存儲與計算單元緊密綁定,企業(yè)為應對業(yè)務峰值,往往需要按最高負載配置硬件,導致非峰值時段資源利用率不足,運維成本居高不下。
傳統(tǒng)存算架構的弊端
存算分離的核心正是打破這種捆綁關系,實現(xiàn)存儲與計算的“物理解耦、邏輯協(xié)同”,也就是將數(shù)據(jù)存儲功能與計算功能從物理設備層面拆分,通過高速網絡實現(xiàn)存儲資源池與計算資源池的獨立部署、彈性調度,改變傳統(tǒng)緊耦合架構中存儲與計算綁定擴容的固有模式。
這種架構革新的核心價值,在于破解傳統(tǒng)架構下三大核心痛點:一是資源浪費,避免算力閑置而存儲不足或存儲冗余而算力短缺的失衡問題;二是擴展受限,傳統(tǒng)緊耦合架構擴容需整體升級設備,難以適配PB級、EB級數(shù)據(jù)增長需求;三是安全隱患,數(shù)據(jù)與算力綁定存儲,易導致數(shù)據(jù)泄露、故障傳導等風險。
分離之后的存儲層可根據(jù)數(shù)據(jù)量按需擴容,輕松承載EB級海量數(shù)據(jù);計算層依托Serverless等架構,隨業(yè)務負載彈性伸縮,用完即釋放,避免資源浪費;再借助智能IP廣域網(AI WAN)、CXL等技術,保障跨節(jié)點數(shù)據(jù)傳輸?shù)牡脱舆t與高可靠。
從技術邏輯來看,存算分離的落地需三大核心支撐:一是高速網絡傳輸,RDMA(遠程直接內存訪問)、硅光互連等技術的成熟應用,將存儲與計算節(jié)點間的傳輸延遲壓縮至微秒級,為資源解耦提供基礎;二是彈性資源調度,軟件定義存儲技術的普及,實現(xiàn)存儲資源的動態(tài)分配與按需擴容,適配不同場景的算力需求波動;三是高可靠冗余機制,通過分布式架構與創(chuàng)新EC冗余技術,在降低存儲冗余成本的同時,保障數(shù)據(jù)可靠性。這三大支撐技術在2025年的全面成熟,推動了存算分離從高端場景向通用領域滲透。
中國電子企業(yè)協(xié)會電子信息產融合作工作委員會成員綠算技術高級副總裁黃飛表示,存算分離并非要取代此前火爆的存算一體技術,而是形成互補共生的格局。存算分離聚焦數(shù)據(jù)中心級、廣域級的大規(guī)模資源調度,適合AI大模型訓推、大數(shù)據(jù)分析等場景;存算一體則側重端側、邊緣側的本地化高效計算,比如車載終端、智能攝像頭等設備,兩者共同構成“端云協(xié)同”的算力基礎設施體系。
破解行業(yè)長期痛點 持續(xù)拓展應用領域
當前,存算分離技術在核心介質、網絡傳輸、調度算法等領域實現(xiàn)多項關鍵突破,推動技術從實驗室走向規(guī)模化商用。
在技術層面,存算分離領域最顯著的突破是擺脫對專用硬件的依賴,通過全棧軟件優(yōu)化實現(xiàn)通用硬件的高性能適配,破解長期以來“高性能必高成本”的行業(yè)痛點。
圖片來源:京東云官網
例如,京東云發(fā)布的云海AI存儲解決方案,通過軟件棧深度調優(yōu)、支持超低冗余EC存儲、支持全場景統(tǒng)一存儲和存算分離技術,而這項存算分離技術可以將計算和存儲解耦獨立,存算資源獨立調度,提高資源利用率和系統(tǒng)可靠性的同時,降低存儲成本。
據(jù)了解,云海AI存儲的存算分離技術架構,可以實現(xiàn)低至1.1x副本的冗余EC存儲,節(jié)省整體基礎設施成本30%以上。
綠算技術推出的GroundPool 7000系列產品
綠算技術推出為G3級(Nvidia ICMS)定制的存算分離架構平臺GP7000系列產品,該系列產品采用以太網閃存簇(EBOF)設計,單系統(tǒng)配備24個PCIe 5.0 NVMe U.2盤位,通過雙主控板實現(xiàn)冗余。單機提供7000萬IOPS、300GB/s帶寬與20μs級延遲,性能較傳統(tǒng)存儲服務器提升17倍。整機功耗<900W,每GB/s帶寬功耗僅3.1W,滿足AI工廠的5倍能效目標,支持BlueField-3/4 DPU與Spectrum-X交換機,通過NVMe-oF/RoCEv2/GDS協(xié)議實現(xiàn)GPU直連。
高速網絡傳輸技術的優(yōu)化,是存算分離低延遲落地的核心保障。RDMA(遠程直接內存訪問)網絡技術的深度優(yōu)化,消除了數(shù)據(jù)在計算節(jié)點與存儲節(jié)點間的搬運延遲,京東云、華為等企業(yè)的方案均已實現(xiàn)該技術的成熟應用。
在人工智能與大模型訓推領域,生成式AI與大模型的規(guī)?;瘧脤λ懔εc數(shù)據(jù)訪問效率提出更高要求,存算分離技術通過“數(shù)據(jù)就地計算、算力動態(tài)調度”的核心特性,有效解決了傳統(tǒng)架構下數(shù)據(jù)頻繁搬運導致的訓推效率低、成本高的問題,成為AI基礎設施的核心支撐技術。
華為近期發(fā)布的TaurusDB是其新一代云原生數(shù)據(jù)庫,主打“商業(yè)數(shù)據(jù)庫的性能與可靠性,開源數(shù)據(jù)庫的靈活與開放”。其基于自研的DFV分布式存儲,采用計算與存儲分離架構,完全兼容MySQL生態(tài),讓客戶應用平滑遷移,同時通過計算存儲分離機制,顯著減少資源冗余,提升整體效率。
圖片來源:華為官網
阿里達摩院基于分布式智能存儲系統(tǒng)構建大模型訓練數(shù)據(jù)中心,可支撐千億參數(shù)大模型的高效訓練。其核心邏輯正是存算分離,通過存儲與計算資源的彈性調度,避免了傳統(tǒng)架構下的資源浪費與數(shù)據(jù)搬運延遲,成為大模型研發(fā)過程中的重要技術支撐。
在金融科技領域,金融行業(yè)對數(shù)據(jù)安全性、業(yè)務連續(xù)性及實時性要求更高,存算分離技術憑借其高可用、彈性擴展及合規(guī)適配特性,在銀行、證券等細分領域得到廣泛落地,有效解決了傳統(tǒng)架構下資源利用率低、節(jié)點重建效率低、業(yè)務抖動等痛點。
微眾銀行作為國內首家數(shù)字銀行,2025年基于TDSQL數(shù)據(jù)庫推出存算分離“Diskless架構”,應對數(shù)據(jù)規(guī)模從不到10PB激增至110PB以上、服務器數(shù)量增至2萬臺的業(yè)務挑戰(zhàn)。該架構通過服務器去本地盤化、計算無狀態(tài)化改造,將存儲資源集中為遠程存儲池,計算節(jié)點僅保留CPU與內存,實現(xiàn)資源彈性分配。
京東云表示,某股份制銀行通過部署京東云云海分布式存儲系統(tǒng),快速打通存力卡點,存儲資源利用率提升3倍,綜合成本降低50%。
行業(yè)發(fā)展面臨挑戰(zhàn) “存算分離”前景光明
盡管存算分離在2025年取得顯著進展,但行業(yè)發(fā)展仍面臨不少挑戰(zhàn)。記者采訪了解到,技術層面,超遠距離存算拉遠場景下的算效優(yōu)化、多協(xié)議兼容與異構資源調度的復雜度等問題,仍增加了企業(yè)遷移與運維成本;產業(yè)層面,行業(yè)標準不統(tǒng)一導致方案碎片化,跨廠商協(xié)同難度較大,產業(yè)鏈上下游技術適配成本偏高;安全層面,多節(jié)點協(xié)同場景下的全鏈路防護仍需加強,跨區(qū)域、跨行業(yè)數(shù)據(jù)傳輸?shù)暮弦?guī)管控難度不小。
不過,行業(yè)對存算分離的未來充滿信心。綠算技術預測,2026—2030年,存算分離將進入技術深度融合、產業(yè)生態(tài)成熟、應用場景泛化的新階段。技術上,存算分離將與存算一體、云邊協(xié)同等技術深度融合,CXL、AI WAN等技術的持續(xù)迭代將進一步優(yōu)化遠距離存算協(xié)同效能;產業(yè)上,行業(yè)標準將逐步統(tǒng)一,跨廠商協(xié)同成本將顯著降低;應用上,存算分離將從互聯(lián)網、金融向醫(yī)療、教育、工業(yè)制造等傳統(tǒng)行業(yè)深度滲透;安全上,AI驅動的智能防護技術將廣泛應用,推動數(shù)據(jù)要素安全流通。
隨著技術創(chuàng)新的持續(xù)加碼與生態(tài)體系的不斷完善,存算分離將成為未來數(shù)字基礎設施的核心架構模式,為全球數(shù)字經濟高質量發(fā)展注入新動力,推動人工智能、大數(shù)據(jù)等新興技術規(guī)?;瘧?。
- QQ:61149512
