快科技7月31日消息,據(jù)媒體報(bào)道,2025(第二屆)產(chǎn)融合作大會(huì)在北京召開(kāi)。會(huì)上,浪潮存儲(chǔ)重磅發(fā)布了推理加速存儲(chǔ)產(chǎn)品AS3000G7,旨在解決大模型推理中因KV Cache重復(fù)計(jì)算導(dǎo)致的算力浪費(fèi)和時(shí)延問(wèn)題,為金融、科研等領(lǐng)域的模型規(guī)模化落地提供關(guān)鍵支撐。
當(dāng)前,大模型推理高度依賴昂貴的GPU服務(wù)器,其利用效率直接決定了模型從“實(shí)驗(yàn)室”走向“生產(chǎn)線”的速度。
與此同時(shí),IDC預(yù)測(cè)未來(lái)五年智能算力規(guī)模將增長(zhǎng)1.7倍,且到2027年,推理工作負(fù)載占比將超過(guò)70%,提升GPU利用效率的需求愈加迫切。
浪潮存儲(chǔ)AS3000G7創(chuàng)新性地提出“以存代算”方案。該產(chǎn)品能夠集中存儲(chǔ)所有KV Cache及多輪對(duì)話結(jié)果。
其架構(gòu)將KV Cache從GPU本機(jī)內(nèi)存,通過(guò)高速網(wǎng)絡(luò)緩存至AS3000G7。在后續(xù)對(duì)話中,系統(tǒng)可按需直接拉取緩存,徹底避免了重復(fù)計(jì)算。
這一突破性設(shè)計(jì)顯著節(jié)省了算力消耗,提升了寶貴的GPU資源利用率,加速了大模型在實(shí)際場(chǎng)景中的高效應(yīng)用。

本文鏈接:http://m.rrqrq.com/showinfo-17-174505-0.html推理加速存儲(chǔ)AS3000G7發(fā)布:以存代算 節(jié)省算力消耗
聲明:本網(wǎng)頁(yè)內(nèi)容旨在傳播知識(shí),若有侵權(quán)等問(wèn)題請(qǐng)及時(shí)與本網(wǎng)聯(lián)系,我們將在第一時(shí)間刪除處理。郵件:2376512515@qq.com
上一篇: 中國(guó)互聯(lián)網(wǎng)企業(yè)用戶規(guī)模一覽:昔日BAT變DAT 百度跌出前三