詳解：本土AI超節(jié)點元腦SD200如何率先實現(xiàn)token生成速度8.9ms

2025-11-10 13:01 來源: 商業(yè)新聞影響力評估指數(shù)：23.14

北京2025年11月10日 /美通社/ -- 近日，在2025人工智能計算大會上，浪潮信息公布，基于元腦SD200超節(jié)點AI服務器，DeepSeek R1大模型token生成速度僅需8.9毫秒，創(chuàng)造國內大模型最快token生成速度。

元腦SD200創(chuàng)新設計滿足低延遲推理需求

智能體時代的標志性特征是多模型協(xié)同與實時決策，每個智能體具備感知-決策-執(zhí)行的閉環(huán)能力，涉及復雜的、多步驟的工作流，需要任務分解、自主決策以及持續(xù)的規(guī)劃和執(zhí)行。在智能體推理的過程中，即使是單個推理步驟中的延遲也會在多步驟任務中被指數(shù)級放大，導致用戶體驗遲滯。因此，token生成速度正成為影響用戶評價的一個關鍵指標。

元腦SD200超節(jié)點AI服務器基于高帶寬、低延時、原生內存語義的開放總線協(xié)議，通過構建高性能交換單元打造3D Mesh高性能互連超擴展系統(tǒng)，支持64張本土AI芯片高密度算力擴展，能夠很好地滿足DeepSeek等大模型的低延遲推理需求，加快token生成速度。

精簡互連協(xié)議：采用事務層-數(shù)據(jù)鏈路層-物理層三層精簡互連協(xié)議，事務層天然支持Load/Store內存語義；數(shù)據(jù)鏈路層支持基于信用的流控機制和鏈路級錯誤重傳保障；物理層建立10-12低誤碼率的高可靠物理通道，報文有效數(shù)據(jù)利用率達成96%以上。

全局統(tǒng)一編址：為解決跨主機域通信難題，設計獨立于主機域的交換域全局地址空間，將多個獨立主機域下的GPU在交換域進行統(tǒng)一的顯存編址，為GPU互訪提供基礎保障。

全局地址映射與數(shù)據(jù)路由：創(chuàng)新研發(fā)影子設備技術，通過影子設備將遠端GPU映射到本地主機域，實現(xiàn)所有獨立主機對全局GPU的顯存訪問，通過端口高效轉發(fā)技術實現(xiàn)跨主機P2P訪問。

定制通信算法深度適配元腦SD200

除了硬件方面的創(chuàng)新，浪潮信息AI團隊也針對DeepSeek、Kimi等模型的計算特征和元腦SD200的硬件架構特征，完成了通信庫、計算框架層面等多方面的優(yōu)化，充分發(fā)揮了元腦SD200的計算性能，最終實現(xiàn)了低延遲推理。同時，也支持預填充-解碼 (Prefill-Decode) 分離推理，在滿足客戶業(yè)務場景SLO需求的基礎上提供更高性能。

通信庫層面，針對Allreduce、Allgather、Alltoall等典型通信算子，浪潮信息制定了與元腦SD200深度適配的通信算法。例如，對于Allreduce，為了充分發(fā)揮元腦SD200的低延遲優(yōu)勢，專為Allreduce設計了分層算法策略：針對小數(shù)據(jù)量，采用全量收集，本地規(guī)約的低延遲定制One-Shot算法，旨在最小化GPU間的同步與通信開銷；針對大數(shù)據(jù)量，采用高吞吐的定制化環(huán)形算法，以徹底解決帶寬瓶頸并實現(xiàn)最優(yōu)帶寬利用率。而對于模型應用中最常見的中等數(shù)據(jù)量，則采用兼顧延遲與帶寬的定制Two-Shot算法。浪潮信息更結合芯片緩存特性對此核心場景進行了深度優(yōu)化：對中小數(shù)據(jù)量啟用無緩存方案以追求極致延遲；對中大數(shù)據(jù)量則啟用緩存方案，從而最大化吞吐效率。

實測數(shù)據(jù)表明，在64 GPU集群上進行DeepSeek R1 671B模型的BF16推理時，針對Batch Size為1的decode階段(其Allreduce數(shù)據(jù)量約為14 KB)，優(yōu)化后的算法將通信時延降低了5.8倍。此外，在16 KB至16 MB這一核心數(shù)據(jù)量區(qū)間內，定制優(yōu)化算法的通信時延相較于未優(yōu)化前的實現(xiàn)降低了1.6至5.8倍；與傳統(tǒng)scale-out系統(tǒng)相比，時延降低幅度則進一步擴大至4.5至12.7倍。

全方位框架優(yōu)化保障計算低延遲

框架層面，浪潮信息AI團隊完成了并行方式、算子融合、多流水線等多方面優(yōu)化，來保證計算的低延遲。

首先，在并行方式上，選擇了整網(wǎng)的張量并行。在此并行模式下，通過模型均勻切分實現(xiàn)了設備間計算負載的完全均衡、各個計算板卡之間計算的完全并行和同步，消除了流水線氣泡與負載不均衡問題。同時，元腦SD200的高帶寬、低延遲確保了AllReduce、AllGather等通信算子性能的大幅提升，使得通信時間大幅下降，從而實現(xiàn)了超低延遲的推理性能。

其次，在算子上，實現(xiàn)了極致的算子融合等優(yōu)化。GPU的計算速度遠遠超過了內存帶寬的訪問速度，從內存中讀寫數(shù)據(jù)的時間成本，大部分時候比實際進行計算的時間成本還要高。算子融合可以通過減少不必要的內存讀寫和計算開銷，來顯著提升推理速度、降低延遲并減少內存占用，所以基于SGlang框架的已有實現(xiàn)，進行了多個算子的融合。

對MLA模塊中attn_mla計算前的算子進行融合，該融合算子以Query和Key向量進行RMSnorm計算后的輸出為輸入，以attn_mla計算的輸入q_input、k_input、v_input等為輸出，包含bmm計算、rotary_emb計算以及向量拆分轉置等計算；

RMSNorm和add計算融合；

實現(xiàn)int8精度的量化和RMSNorm、silu等激活函數(shù)的融合；

將路由專家分組選擇中多個算子的融合為一個算子。

最后，也進行了多stream的優(yōu)化。多個算子計算時，默認在單stream模式下，所有操作都排成一條隊，一個接一個地執(zhí)行。當算子本身的計算量不是很大時，會導致GPU的部分硬件單元在計算時處于空閑狀態(tài)，也就浪費了計算資源。多stream優(yōu)化就是為了讓這些硬件單元"同時忙起來"，對于相互之間沒有依賴關系的操作，可以放到不同的stream中并行執(zhí)行，提高硬件的利用效率，同時減小整體的計算時間。在多stream并行優(yōu)化方面，浪潮信息實現(xiàn)了MLA層的多個layernorm計算的并行，并實現(xiàn)了MoE階段和共享專家計算和路由專家分組選擇的并行等，實現(xiàn)了約10%的性能提升。

預填充-解碼分離軟件提高整體計算性能

此外，浪潮信息開發(fā)了預填充-解碼 (Prefill-Decode) 分離軟件，針對預填充與解碼不同的計算特性，使用不同的并行計算策略、硬件配置等，提高系統(tǒng)整體的計算性能。同時在業(yè)務部署中，支持節(jié)點服務的動態(tài)擴展；支持利用負載均衡和鍵值緩存(KV cache)命中率進行任務分配，把任務下發(fā)到鍵值緩存匹配度相對較高、任務負載相對較小的節(jié)點，減少重復計算，同時最大化計算資源利用率。另外，PD分離軟件還實現(xiàn)了鍵值緩存offload技術，可把鍵值緩存到CPU端內存與分布式存儲系統(tǒng)上，增大緩存空間。

元腦SD200超節(jié)點AI服務器通過高帶寬和超低延遲通信、超大顯存池、智能路由優(yōu)化、PD分離推理等創(chuàng)新技術，大幅提升了DeepSeek、Kimi等大模型的推理輸出速度。元腦SD200搭載64張本土AI芯片運行DeepSeek R1大模型，當輸入長度為4096、輸出長度為1024時，單用戶token生成達到112 tokens/s，每token生成時間僅為8.9ms，率先實現(xiàn)國內AI服務器token生成速度低于10ms，將推動萬億參數(shù)大模型在金融、科研、智能制造等領域快速落地。

[美通社]

【免責聲明】本文僅代表作者個人觀點，與云財經(jīng)無關。其原創(chuàng)性以及文中陳述文字和內容未經(jīng)本站證實，云財經(jīng)對本文以及其中全部或者部分內容、文字的真實性、完整性、及時性本站不作任何保證或承諾，請讀者僅作參考，并請自行核實相關內容。

云財經(jīng)智能匹配相關概念

人工智能概念股：

中威電子(300270) ST英飛拓(002528) 音飛儲存(603066) 中科信息(300678) 熙菱信息(300588)

新聞標題	時間	消息來源
中國液體可回收火箭“朱雀三號”將于11月中下旬首飛	`今天 09:01`	云財經(jīng)
凸顯看好態(tài)度多路資金競相加碼權益資產	`今天 05:18`	云財經(jīng)
昊海生科：擬7400萬元收購一家非全資子公司余下20%股權	`11-09 17:09`	云財經(jīng)
預告：國新辦舉行國務院政策例行吹風會介紹加快場景培育和開放推動新場景大規(guī)模應用有關情況	11-09 09:45	云財經(jīng)
天康生物：2025年10月份銷售生豬30.35萬頭，同比增長6.75%	11-07 17:36	云財經(jīng)
晶盛機電發(fā)布方形硅片全流程解決方案	11-07 11:57	云財經(jīng)

一级a片免费欧美|青青草人人操人人妻|av动漫第一页青青草人妻视频|日韩顶级成人电影|性AV一区二区三区|国产一区二区三区免费|国产毛片www久久xx|2021不卡无码视频|精品国产a∨无码一区二区免费|黄色网页免费无毒在线观看