2025 年 7 月 25 日,浪潮存儲營銷總監(jiān)張業(yè)興出席中國信息通信研究院主辦的 2025(第二屆)產(chǎn)融合作大會。會上,張業(yè)興發(fā)表題為《融存智用運(yùn)籌新數(shù)據(jù) —— 浪潮存儲金融解決方案和實(shí)踐》的主題演講,并代表浪潮存儲領(lǐng)先發(fā)布推理加速存儲 AS3000G7。該產(chǎn)品憑借“以存代算”的技術(shù)創(chuàng)新,有效破解 KV Cache 重復(fù)計算帶來的算力和時延損耗難題,為大模型推理場景提供突破性解決方案,加速推動大模型在金融、科研等領(lǐng)域的規(guī)模化落地。

大模型推理效能瓶頸:吞吐量和時延
當(dāng)前人工智能大模型的應(yīng)用已滲透千行百業(yè),既推動著產(chǎn)業(yè)效能的跨越式提升,也深刻重構(gòu)著生產(chǎn)生活的底層邏輯,成為驅(qū)動數(shù)字經(jīng)濟(jì)發(fā)展與社會智能化升級的核心力量。隨著大模型應(yīng)用的普及和相關(guān)技術(shù)的發(fā)展,各行各業(yè)對大模型應(yīng)用的關(guān)注點(diǎn)逐漸從大模型的訓(xùn)練轉(zhuǎn)到大模型的推理。據(jù) IDC 數(shù)據(jù)顯示,智能算力規(guī)模在未來 5 年增長 1.7 倍,用于推理的工作負(fù)載將從 2023 年的 40% 上升到 2027 年的 70% 以上。因此,大模型推理將會成為未來大模型應(yīng)用的焦點(diǎn)。然而,當(dāng)前大模型推理仍然需要借助 GPU 服務(wù)器來實(shí)現(xiàn),而 GPU 服務(wù)器,也是整個大模型落地中最昂貴的投資。因此,充分發(fā)揮 GPU 服務(wù)器的利用率來提升大模型推理效率是大模型的落地關(guān)鍵,推理效率的高低直接決定著大模型從“實(shí)驗室”到“生產(chǎn)線”的落地速度。
大模型推理效率面臨兩大核心瓶頸:吞吐量(Tokens / s)和時延。吞吐量是指系統(tǒng)在單位時間內(nèi)能處理的 tokens 的數(shù)量,數(shù)值越高表明 LLM 服務(wù)資源利用率越高、系統(tǒng)成本越低。時延則是用戶接收每個 token 的平均耗時,其中首字時延(TTFT)是長文本對話場景中“實(shí)時交互體驗”的核心指標(biāo),直接影響用戶體驗。
大模型的推理包含兩個階段,第一個階段是預(yù)填充 (Prefilling) 階段。Prefilling 階段處理輸入,構(gòu)建初始上下文并緩存成 KV Cache (key-value 鍵值對),緩存在 GPU 的 HBM 顯存里。第二個階段是解碼 (Decode) 階段,解碼階段則利用 Prefilling 階段生成的 KV Cache,迭代地生成輸出 Token,最終給出推理答案。
根據(jù)大數(shù)據(jù)統(tǒng)計分析,超過 76% 的對話都是多輪的,多輪對話會產(chǎn)生大量的 KV Cache,上一輪的對話產(chǎn)生的 KV Cache 也會作為下一輪推理的輸入基礎(chǔ),為連續(xù)交互提供上下文支撐。但實(shí)際場景中,GPU HBM 顯存容量存在明顯限制,因此多輪對話中的 KV Cache 會被強(qiáng)制丟棄,在下一輪對話中需要消耗算力來重新計算。以 DeepSeek 70B 模型為例,其每 10 分鐘產(chǎn)生的 KV Cache 高達(dá) 25TB,但每張 GPU HBM 顯存只有幾十 GB,因此,在服務(wù)完一個請求后,需清空顯存以接納新請求,KV Cache 被強(qiáng)制丟棄,在后續(xù)對話中,原本可復(fù)用的 KV Cache 需要重新計算。這種重復(fù)計算直接時延增加(首字響應(yīng)變慢),同時造成 GPU 算力空轉(zhuǎn)(重復(fù)執(zhí)行相同計算),導(dǎo)致吞吐量下降,最終導(dǎo)致資源利用率降低。因此,高效管理 KV Cache 緩存成為提升推理效率的關(guān)鍵。
存儲產(chǎn)品托管 KV Cache,實(shí)現(xiàn)“以存代算”
浪潮存儲 AS3000G7 作為業(yè)內(nèi)領(lǐng)先推理加速存儲,可存儲所有 KV Cache 及多輪對話結(jié)果。其創(chuàng)新架構(gòu)通過將 KV Cache 從 GPU 寫入本機(jī)內(nèi)存,再經(jīng)高速網(wǎng)絡(luò)緩存至 AS3000G7,下輪對話時按需拉取緩存無需重新計算,徹底實(shí)現(xiàn)“以存代算”,顯著節(jié)省算力消耗并提升資源利用率。

作為業(yè)內(nèi)領(lǐng)先推理加速存儲產(chǎn)品,AS3000G7 以四大核心優(yōu)勢重塑推理效率:
降低響應(yīng)延遲:將歷史 Token 緩存至 AS3000G7 存儲層,下輪對話從 NVMe SSD 硬盤中拉取歷史 token 的 KV Cache,減少 GPU 重復(fù)計算帶來的資源消耗,TTFT 降低 90%;
承載更多并發(fā):TTFT 在 400ms 以內(nèi)的前提下,系統(tǒng)可支持的吞吐量(Token / s)可達(dá)原方案 5 倍,單位 GPU 資源可承載更多推理請求;
降低 GPU 功耗:TTFT 的降低與并發(fā)的提升,單 Token 平均功耗下降 60%,在承載同等規(guī)模 token 負(fù)載時,GPU 服務(wù)器整機(jī)功耗降低。
生態(tài)兼容適配:廣泛兼容國產(chǎn)與海外芯片的異構(gòu)算力平臺,深度適配 vLLM 框架下的 deepseek 等主流大模型,優(yōu)化推理體驗。
在某頭部客戶聯(lián)合測試中,采用 1 臺 GPU 服務(wù)器搭配 1 臺 AS3000G7 推理加速存儲的組合方案實(shí)現(xiàn):
穩(wěn)定支撐 500 + 并發(fā)對話,TTFT 降低 90%,響應(yīng)速度大幅提升
同硬件配置下吞吐量(Tokens / s)提升 5 倍,在不增加 GPU 資源的情況下,實(shí)現(xiàn)更高并發(fā)的推理請求
單 token 功耗降低 70%,單位算力成本降低 60%,推理性價比提升

隨著大模型推理需求的持續(xù)攀升,AS3000G7 的推出恰逢其時。其通過“以存代算”的技術(shù)創(chuàng)新突破 KV Cache 重計算瓶頸,為 AI 規(guī)模化應(yīng)用筑牢存儲根基。未來,隨著多模態(tài)與實(shí)時交互場景的普及以及存儲與計算的協(xié)同優(yōu)化,KV Cache“以存代算”將成為降本增效的核心競爭力,為智能時代的推理存儲構(gòu)建新基準(zhǔn)。
本文鏈接:http://m.rrqrq.com/showinfo-26-174465-0.html引領(lǐng)大模型推理效率革命!浪潮存儲領(lǐng)先發(fā)布推理加速存儲 AS3000G7
聲明:本網(wǎng)頁內(nèi)容旨在傳播知識,若有侵權(quán)等問題請及時與本網(wǎng)聯(lián)系,我們將在第一時間刪除處理。郵件:2376512515@qq.com