源2.0-M32大模型發(fā)布量化版運(yùn)行顯存僅需23GB 性能可媲美LLaMA3

2024-08-27 09:43 來(lái)源：美通社作者：電源網(wǎng)

北京2024年8月23日 /美通社/ -- 近日，浪潮信息發(fā)布源2.0-M32大模型4bit和8bit量化版，性能比肩700億參數(shù)的LLaMA3開(kāi)源大模型。4bit量化版推理運(yùn)行顯存僅需23.27GB，處理每token所需算力約為1.9 GFLOPs，算力消耗僅為同等當(dāng)量大模型LLaMA3-70B的1/80。而LLaMA3-70B運(yùn)行顯存為160GB，所需算力為140GFLOPs。

源2.0-M32量化版是"源"大模型團(tuán)隊(duì)為進(jìn)一步提高模算效率，降低大模型部署運(yùn)行的計(jì)算資源要求而推出的版本，通過(guò)采用領(lǐng)先的量化技術(shù)，將原模型精度量化至int4和int8級(jí)別，并保持模型性能基本不變。源2.0-M32量化版提高了模型部署加載速度和多線程推理效率，在不同硬件和軟件環(huán)境中均能高效運(yùn)行，降低了模型移植和部署門(mén)檻，讓用戶(hù)使用更少的計(jì)算資源，就能獲取源2.0-M32大模型的強(qiáng)大能力。

源2.0-M32大模型是浪潮信息"源2.0"系列大模型的最新版本，其創(chuàng)新性地提出和采用了"基于注意力機(jī)制的門(mén)控網(wǎng)絡(luò)"技術(shù)，構(gòu)建包含32個(gè)專(zhuān)家（Expert）的混合專(zhuān)家模型（MoE），模型運(yùn)行時(shí)激活參數(shù)為37億，在業(yè)界主流基準(zhǔn)評(píng)測(cè)中性能全面對(duì)標(biāo)700億參數(shù)的LLaMA3開(kāi)源大模型，大幅提升了模型算力效率。

模型量化（Model Quantization）是優(yōu)化大模型推理的一種主流技術(shù)，它顯著減少了模型的內(nèi)存占用和計(jì)算資源消耗，從而加速推理過(guò)程。然而，模型量化可能會(huì)影響模型的性能。如何在壓縮模型的同時(shí)維持其精度，是量化技術(shù)面臨的核心挑戰(zhàn)。

源2.0-M32大模型研發(fā)團(tuán)隊(duì)深入分析當(dāng)前主流的量化方案，綜合評(píng)估模型壓縮效果和精度損失表現(xiàn)，最終采用了GPTQ量化方法，并采用AutoGPTQ作為量化框架。為了確保模型精度最大化，一方面定制化適配了適合源2.0-M32結(jié)構(gòu)的算子，提高了模型的部署加載速度和多線程推理效率，實(shí)現(xiàn)高并發(fā)推理；另一方面對(duì)需要量化的中間層（inter_layers）進(jìn)行了嚴(yán)格評(píng)估和篩選，確定了最佳的量化層。從而成功將模型精度量化至int4和int8級(jí)別，在模型精度幾乎無(wú)損的前提下，提升模型壓縮效果、增加推理吞吐量和降低計(jì)算成本，使其更易于部署到移動(dòng)設(shè)備和邊緣設(shè)備上。

評(píng)測(cè)結(jié)果顯示，源2.0-M32量化版在多個(gè)業(yè)界主流的評(píng)測(cè)任務(wù)中性能表現(xiàn)突出，特別是在MATH（數(shù)學(xué)競(jìng)賽）、ARC-C（科學(xué)推理）任務(wù)中，比肩擁有700億參數(shù)的LLaMA3大模型。

總之，源2.0-M32大模型量化版在保持推理性能的前提下，顯著降低了計(jì)算資源消耗和內(nèi)存占用，其采用的GPTQ量化方法通過(guò)精細(xì)調(diào)整，成功將模型適配至int4和int8精度級(jí)別。通過(guò)定制化算子優(yōu)化，源2.0-M32量化版實(shí)現(xiàn)了模型結(jié)構(gòu)的深度適配和性能的顯著提升，確保在不同硬件和軟件環(huán)境中均能高效運(yùn)行。未來(lái)，隨著量化技術(shù)的進(jìn)一步優(yōu)化和應(yīng)用場(chǎng)景的拓展，源2.0-M32量化版有望在移動(dòng)設(shè)備和邊緣計(jì)算等領(lǐng)域發(fā)揮更廣泛的作用，為用戶(hù)提供更高效的智能服務(wù)。

源2.0-M32量化版已開(kāi)源，下載鏈接如下：

Hugging Face平臺(tái)下載鏈接：

https://huggingface.co/IEITYuan/Yuan2-M32-gguf-int4
https://huggingface.co/IEITYuan/Yuan2-M32-hf-int4
https://huggingface.co/IEITYuan/Yuan2-M32-hf-int8

modelscope平臺(tái)下載鏈接：

https://modelscope.cn/models/IEITYuan/Yuan2-M32-gguf-int4
https://modelscope.cn/models/IEITYuan/Yuan2-M32-HF-INT4
https://modelscope.cn/models/IEITYuan/Yuan2-M32-hf-int8

源2.0-M32 大模型顯存 23GB LLaMA3

一周熱門(mén)

華為穿戴一季度全球腕戴市場(chǎng)第一

根據(jù)IDC全球可穿戴設(shè)備市場(chǎng)季度跟蹤報(bào)告最新數(shù)據(jù)顯示，2025年第一季度華為在全球腕戴市場(chǎng)上躍升至第一位，在中國(guó)腕戴市場(chǎng)
黑芝麻以芯領(lǐng)航決斷汽車(chē)與機(jī)器人新未來(lái)

6月13日，第十七屆軒轅汽車(chē)藍(lán)皮書(shū)論壇在廣州召開(kāi)。黑芝麻智能創(chuàng)始人兼CEO單記章受邀出席并于主論壇發(fā)表主題演講《全"芯"
第九屆華為ICT大賽收官：AI賦能教育轉(zhuǎn)型，助力ICT人才培養(yǎng)

今日，華為ICT大賽2024-2025全球總決賽閉幕式暨頒獎(jiǎng)典禮在深圳舉行。本屆大賽規(guī)模創(chuàng)歷史新高，共吸引了全球100多

源2.0-M32大模型發(fā)布量化版 運(yùn)行顯存僅需23GB 性能可媲美LLaMA3

相關(guān)閱讀

一周熱門(mén)

源2.0-M32大模型發(fā)布量化版運(yùn)行顯存僅需23GB 性能可媲美LLaMA3