• <strike id="aymay"></strike>
    <strike id="aymay"></strike>
    <ul id="aymay"><dfn id="aymay"></dfn></ul>
    <ul id="aymay"><sup id="aymay"></sup></ul>
  • <del id="aymay"></del>

    源2.0-M32大模型發(fā)布量化版 運(yùn)行顯存僅需23GB 性能可媲美LLaMA3

    2024-08-27 09:43 來(lái)源:美通社 作者:電源網(wǎng)

    北京2024年8月23日 /美通社/ -- 近日,浪潮信息發(fā)布源2.0-M32大模型4bit和8bit量化版,性能比肩700億參數(shù)的LLaMA3開(kāi)源大模型。4bit量化版推理運(yùn)行顯存僅需23.27GB,處理每token所需算力約為1.9 GFLOPs,算力消耗僅為同等當(dāng)量大模型LLaMA3-70B的1/80。而LLaMA3-70B運(yùn)行顯存為160GB,所需算力為140GFLOPs。

    源2.0-M32量化版是"源"大模型團(tuán)隊(duì)為進(jìn)一步提高模算效率,降低大模型部署運(yùn)行的計(jì)算資源要求而推出的版本,通過(guò)采用領(lǐng)先的量化技術(shù),將原模型精度量化至int4和int8級(jí)別,并保持模型性能基本不變。源2.0-M32量化版提高了模型部署加載速度和多線程推理效率,在不同硬件和軟件環(huán)境中均能高效運(yùn)行,降低了模型移植和部署門(mén)檻,讓用戶(hù)使用更少的計(jì)算資源,就能獲取源2.0-M32大模型的強(qiáng)大能力。

    源2.0-M32大模型是浪潮信息"源2.0"系列大模型的最新版本,其創(chuàng)新性地提出和采用了"基于注意力機(jī)制的門(mén)控網(wǎng)絡(luò)"技術(shù),構(gòu)建包含32個(gè)專(zhuān)家(Expert)的混合專(zhuān)家模型(MoE),模型運(yùn)行時(shí)激活參數(shù)為37億,在業(yè)界主流基準(zhǔn)評(píng)測(cè)中性能全面對(duì)標(biāo)700億參數(shù)的LLaMA3開(kāi)源大模型,大幅提升了模型算力效率。

    模型量化(Model Quantization)是優(yōu)化大模型推理的一種主流技術(shù),它顯著減少了模型的內(nèi)存占用和計(jì)算資源消耗,從而加速推理過(guò)程。然而,模型量化可能會(huì)影響模型的性能。如何在壓縮模型的同時(shí)維持其精度,是量化技術(shù)面臨的核心挑戰(zhàn)。

    源2.0-M32大模型研發(fā)團(tuán)隊(duì)深入分析當(dāng)前主流的量化方案,綜合評(píng)估模型壓縮效果和精度損失表現(xiàn),最終采用了GPTQ量化方法,并采用AutoGPTQ作為量化框架。為了確保模型精度最大化,一方面定制化適配了適合源2.0-M32結(jié)構(gòu)的算子,提高了模型的部署加載速度和多線程推理效率,實(shí)現(xiàn)高并發(fā)推理;另一方面對(duì)需要量化的中間層(inter_layers)進(jìn)行了嚴(yán)格評(píng)估和篩選,確定了最佳的量化層。從而成功將模型精度量化至int4和int8級(jí)別,在模型精度幾乎無(wú)損的前提下,提升模型壓縮效果、增加推理吞吐量和降低計(jì)算成本,使其更易于部署到移動(dòng)設(shè)備和邊緣設(shè)備上。

    評(píng)測(cè)結(jié)果顯示,源2.0-M32量化版在多個(gè)業(yè)界主流的評(píng)測(cè)任務(wù)中性能表現(xiàn)突出,特別是在MATH(數(shù)學(xué)競(jìng)賽)、ARC-C(科學(xué)推理)任務(wù)中,比肩擁有700億參數(shù)的LLaMA3大模型。


    總之,源2.0-M32大模型量化版在保持推理性能的前提下,顯著降低了計(jì)算資源消耗和內(nèi)存占用,其采用的GPTQ量化方法通過(guò)精細(xì)調(diào)整,成功將模型適配至int4和int8精度級(jí)別。通過(guò)定制化算子優(yōu)化,源2.0-M32量化版實(shí)現(xiàn)了模型結(jié)構(gòu)的深度適配和性能的顯著提升,確保在不同硬件和軟件環(huán)境中均能高效運(yùn)行。未來(lái),隨著量化技術(shù)的進(jìn)一步優(yōu)化和應(yīng)用場(chǎng)景的拓展,源2.0-M32量化版有望在移動(dòng)設(shè)備和邊緣計(jì)算等領(lǐng)域發(fā)揮更廣泛的作用,為用戶(hù)提供更高效的智能服務(wù)。

    源2.0-M32量化版已開(kāi)源,下載鏈接如下:

    Hugging Face平臺(tái)下載鏈接:

    https://huggingface.co/IEITYuan/Yuan2-M32-gguf-int4 
    https://huggingface.co/IEITYuan/Yuan2-M32-hf-int4 
    https://huggingface.co/IEITYuan/Yuan2-M32-hf-int8 

    modelscope平臺(tái)下載鏈接:

    https://modelscope.cn/models/IEITYuan/Yuan2-M32-gguf-int4 
    https://modelscope.cn/models/IEITYuan/Yuan2-M32-HF-INT4 
    https://modelscope.cn/models/IEITYuan/Yuan2-M32-hf-int8 

    源2.0-M32 大模型 顯存 23GB LLaMA3

    一周熱門(mén)

    主站蜘蛛池模板: 国产AV午夜精品一区二区三区| 99久久99这里只有免费的精品| 精品人妻系列无码天堂| 国产成人综合久久精品尤物| 国产精品成人观看视频国产奇米| 亚洲国产成人精品久久久国产成人一区二区三区综| 国精无码欧精品亚洲一区| 麻豆国产高清精品国在线| 色综合久久综精品| 岛国精品一区免费视频在线观看| 中文字幕一精品亚洲无线一区| 国产乱子伦精品无码专区| 精品亚洲永久免费精品| A级精品国产片在线观看| 少妇人妻精品一区二区三区| 日韩精品一区二区三区影院| 精品久久久久久国产免费了| 亚洲欧洲国产精品你懂的| 国产成人精品视频在放| 久久99热只有频精品8| 亚洲精品中文字幕乱码三区| 午夜肉伦伦影院久久精品免费看国产一区二区三区 | 一区二区精品在线| 538国产精品一区二区在线| 久久99精品久久久久久久久久| 亚洲AV第一页国产精品| 自拍中文精品无码| 亚洲精品午夜无码电影网| 亚洲第一极品精品无码久久| 一级做a爰黑人又硬又粗免费看51社区国产精品视 | 亚洲午夜精品第一区二区8050| 久久久久久青草大香综合精品| 国产天天综合永久精品日| 国产精品成人小电影在线观看 | 青青青国产精品国产精品久久久久 | 久久99国产乱子伦精品免费| 日韩精品系列产品| 免费精品无码AV片在线观看| 亚洲AV无码精品色午夜果冻不卡| 无码精品国产VA在线观看| 蜜芽亚洲av无码精品色午夜|