東西作者李水青編輯云鵬智東西6月30日報道,今日,華為首個開源大模型來了。70億個參數(shù)的稠密模型“盤古Embedded7B”、720億個參數(shù)的混合專家模型“盤古ProMoE”以及基于昇騰的模型推理技術(shù),今日一齊開源。基于4000顆昇騰NPU并行訓(xùn)練,激活參數(shù)量16B的盤古ProMoE在MMLU、C-Eval、GSM8K等多種基準(zhǔn)測試中,性能超越Qwen3-32B、GLM-Z1-32B等主流開源模型。其在昇騰800IA2上單卡推理吞吐性能可達(dá)1528tokens/s,顯著優(yōu)于同等規(guī)模的320億和720億個參數(shù)的稠密模型。目前,盤古ProMoE72B模型權(quán)重、基礎(chǔ)推理碼,以及基于昇騰的超大規(guī)模MoE模型推理代碼,已正式上線開源平臺。▲盤古ProMoE以及基于昇騰的模型推理技術(shù)的報告截圖技術(shù)報告地址:https://arxiv.org/abs/2505.21411模型下載地址:https://gitcode.com/ascend-tribe/pangu-pro-moe-model針對昇騰硬件優(yōu)化的推理代碼地址:https://gitcode.com/ascend-tribe/ascend-inference-system盤古Embedded7B模型是一個引入“快思考”和“慢思考”雙系統(tǒng),簡單問題用快速模式響應(yīng),復(fù)雜問題用深度模式推理,可自動切換。在數(shù)學(xué)、編程等多個基準(zhǔn)測試中,盤古Embedded7B性能超過了類似規(guī)模的Qwen3-8B、GLM4-9B等模型。盤古7B相關(guān)模型權(quán)重與推理代碼將于近期上線開源平臺。▲盤古Embedded7B技術(shù)報告截圖技術(shù)報告地址:https://arxiv.org/abs/2505.22375此外,自5月19日起,華為分享了基于昇騰打造超大規(guī)模MoE模型推理部署最佳實(shí)踐的技術(shù)報告,而從6月30日開始,這些技術(shù)報告相關(guān)的代碼也會陸續(xù)開源出來。一、盤古ProMoE:基于昇騰NPU,16B激活參數(shù)比肩Qwen3-32B混合專家模型(MoE)在大語言模型中逐漸興起,但不同專家的激活頻率在實(shí)際部署中存在嚴(yán)重的不均衡問題,導(dǎo)致系統(tǒng)效率低下。
為此,華為提出了如下新型的分組混合專家模型(MixtureofGroupedExperts,MoGE),它在專家選擇階段對專家進(jìn)行分組,并約束token在每個組內(nèi)激活等量專家,從而實(shí)現(xiàn)專家負(fù)載均衡,顯著提升模型在昇騰平臺的部署效率。當(dāng)模型執(zhí)行分布在多個設(shè)備上時,這對于具有數(shù)百億個參數(shù)的模型來說是必需的,MoGE架構(gòu)設(shè)計可確保跨設(shè)備平衡的計算負(fù)載,從而顯著提高吞吐量,尤其是在推理階段。
基于MoGE架構(gòu),華為構(gòu)建了總參數(shù)量720億、激活參數(shù)量160億的稀疏模型盤古ProMoE模型,并針對昇騰300IDuo和800IA2平臺進(jìn)行系統(tǒng)優(yōu)化。在預(yù)訓(xùn)練階段,華為使用了4000個昇騰NPU,在包含13萬億tokens的高質(zhì)量語料庫上進(jìn)行預(yù)訓(xùn)練,分為通用、推理和退火三個階段,逐步提升模型能力。
在后訓(xùn)練階段,其通過監(jiān)督微調(diào)(SFT)和強(qiáng)化學(xué)習(xí)(RL)進(jìn)一步增強(qiáng)推理能力,還采用了檢查點(diǎn)合并等技術(shù)優(yōu)化模型。最終,盤古ProMoE在昇騰800IA2上實(shí)現(xiàn)了單卡1148tokens/s的推理吞吐性能,并可進(jìn)一步通過投機(jī)加速等技術(shù)提升至1528tokens/s,顯著優(yōu)于同等規(guī)模的320億和720億個參數(shù)的稠密模型;在昇騰300IDuo推理服務(wù)器上,華為也實(shí)現(xiàn)了極具性價比的模型推理方案。華為的研究表明,昇騰NPU能夠支持盤古ProMoE的大規(guī)模并行訓(xùn)練。多項公開基準(zhǔn)測試結(jié)果表明,盤古ProMoE在千億內(nèi)總參數(shù)模型中處于領(lǐng)先地位。如下圖所示,盤古ProMoE在英語、中文及推理領(lǐng)域的多項能力測試中全面超越Gemma3-27B、Llama4-scout。在MMLU、C-Eval、GSM8K等多種基準(zhǔn)測試中,盤古ProMoE性能超越GLM-Z1-32B、Qwen3-32B等主流開源模型,展現(xiàn)了在多語言理解、推理等方面的領(lǐng)先能力。二、盤古Embedded7B:創(chuàng)新快慢思考雙架構(gòu),測評超Qwen3-8B當(dāng)前,大語言模型普遍面臨著巨大的計算成本和推理延遲挑戰(zhàn),這限制了它們的實(shí)際應(yīng)用與部署。為此,華為推出盤古Embedded,一個在昇騰NPU上開發(fā)的開發(fā)的高效大語言模型推理器。
盤古Embedded的核心是一個具備“快思慢想”(fastandslowthinking)能力的雙系統(tǒng)框架。該框架通過一個用于常規(guī)請求的“快思考”模式和一個用于復(fù)雜推理的“慢思考”模式,在延遲和推理深度之間實(shí)現(xiàn)了精妙的平衡。此外,模型具備元認(rèn)知能力,能夠根據(jù)任務(wù)復(fù)雜度自動選擇最優(yōu)模式。華為通過一個創(chuàng)新的兩階段訓(xùn)練框架構(gòu)建此模型,該框架融合了迭代蒸餾、模型合并以及由多源自適應(yīng)獎勵系統(tǒng)(MARS)引導(dǎo)的強(qiáng)化學(xué)習(xí)。下圖是PanguEmbedded訓(xùn)練管道的示意圖。該管道包括兩個主要階段:第1階段是基本推理器構(gòu)建,第2階段是在一個模型中實(shí)現(xiàn)快速和慢速思考。基于該雙系統(tǒng)框架,華為構(gòu)建了盤古Embedded7B模型,并在昇騰NPU平臺上進(jìn)行了深度系統(tǒng)優(yōu)化。該模型在單一、統(tǒng)一的架構(gòu)內(nèi)實(shí)現(xiàn)了快速響應(yīng)和高質(zhì)量推理的靈活切換。研究表明,僅有70億個參數(shù)的盤古Embedded在AIME、GPQA等多個權(quán)威的復(fù)雜推理基準(zhǔn)測試中,表現(xiàn)優(yōu)于Qwen3-8B和GLM4-9B等規(guī)模相近的業(yè)界領(lǐng)先模型。
這項工作展示了一條充滿前景的技術(shù)路線:在保證模型推理能力達(dá)到業(yè)界頂尖水平的同時,實(shí)現(xiàn)其實(shí)用化、高效率的部署。結(jié)語:基于自研昇騰NPU,創(chuàng)新大模型架構(gòu)華為在大模型領(lǐng)域的成果進(jìn)展正在加快。
此前6月20日,華為推出盤古大模型5.5系列五大基礎(chǔ)模型,并推出醫(yī)學(xué)、金融等五大盤古行業(yè)思考大模型;僅僅十天之后,華為又開源兩款大模型。盤古ProMoE通過MoGE架構(gòu)與昇騰NPU的協(xié)同設(shè)計,實(shí)現(xiàn)了高效的稀疏大語言模型訓(xùn)練與推理;盤古Embedded7B則具備靈活切換快慢思考的能力,是大模型架構(gòu)設(shè)計的創(chuàng)新。
此舉是華為踐行昇騰生態(tài)戰(zhàn)略的又一關(guān)鍵舉措,有望推動大模型技術(shù)的發(fā)展,也正改變大模型產(chǎn)業(yè)的開源格局。