让建站和SEO变得简单

让不懂建站的用户快速建站,让会建站的提高建站效率!

智源开源flagos升级:初次达成deepseek-r1满血版多种芯片高效快速部署-品玩
发布日期:2025-02-27 16:25    点击次数:155

近日,DeepSeek-R1以低锻练资本达成并排一流模子的高性能并全面开源,激励了海量部署及场景应用,推理狡计需求迅猛增长。基于面向大模子、支抓多种AI芯片的开源和谐软硬件时期栈FlagOS,智源商榷院聚拢多个芯片厂商一同拓荒并开源了DeepSeek-R1多芯片版块,旨在鞭策大模子在不同芯片的适配应用,冲破生态墙和算力料理,构建多元芯片的和谐时期栈和开源软硬件生态。这次发布基于FlagOS的DeepSeek-R1多芯片版块,是业界初次通过和谐开源软件栈达成DeepSeek-R1的多芯片开源版块,并同期给出了严谨的模子对王人扫尾,保证了开源可用、和谐易用。它给用户带来以下几个重要价值。

代码和谐:使用归并套开源代码和底层框架,达成了不同AI芯片架构的DeepSeek-R1推理,鞭策生态和谐、通达。

服从对王人:智源领受科学严谨的顺次,发布的多芯片版块,在各个芯片作事器上,均与英伟达芯片上的DeepSeek-R1进行严格评测,保证在不同芯片架构上的DeepSeek-R1版块与原始英伟达版块服从对王人,一样优秀。该对王人评测是基于智源的FlagEval大模子评测系统,评测扫尾可在HuggingFace及魔搭平台查阅。

开源通达:多芯片版块的源代码、各个芯片的DeepSeek-R1模子文献、各个芯片的一站式Docker运行镜像文献分辨通达到Github/Gitee,Huggingface和魔搭,云厂商镜像仓库等平台,便捷广大拓荒者用户的获得。

高效易用:依托各芯片适配的基础镜像,安设 FlagOS 中枢组件,其中涵盖异构并行训推框架 FlagScale 与大模子通用算子库 FlagGems。在此基础上,大略一键部署 DeepSeek - R1 模子作事和自动分散式推理调优智商,同期提供与 OpenAI 兼容的 API,极大裁汰使用门槛,普及部署服从。

FlagOS是由智源牵头,与多个厂商共同打造的面向多元AI芯片的和谐、开源的系统软件时期栈,包括支抓多种AI芯片的高效并行训推框架FlagScale、支抓多种AI芯片架构的高性能算子库FlagAttention和FlagGems,以及支抓多种AI芯片的和谐通讯库FlagCX等关键时期。FlagOS旨在包括英伟达及多种AI芯片上,都能为用户提供和谐、开源通达的系统软件,营救多样大模子在不同AI芯片上的高效易用,从而冲破算力的料理。

这次基于FlagOS研发的DeepSeek-R1多芯片版块,可一键启动FlagScale达成6700亿参数大模子跨芯片的并行推理,支抓用户证据需求纯真聘用算力组合,自动达成并行推理狡计。FlagScale会证据不同AI芯片的狡计智商自动优化分散式并行计策,确保资源分派最优化和高效愚弄,普及合座部署性能。FlagScale提供和谐且简便的敕令奉行机制,用户不错通过交流的敕令在多样硬件平台上快速无缝部署作事。底层的高性能算子库FlagGems提供了25个通用算子的CUDA开源替换决议,和会算子将鄙人一个版块中完成替换,支抓模子快速迁徙至多元芯片。借助FlagScale的和谐Runner机制以及与FlagGems的深度集成,用户只需在成立文献中添加环境变量即可无缝切换到FlagGems算子库进行推理。

模子及关系文献走访下载

魔搭地址:

https://www.modelscope.cn/organization/FlagRelease

HuggingFace地址:

https://huggingface.co/FlagRelease

刺目技艺

基于FlagOS,只需要几步,用户即可在支抓的AI芯片作事器上完成环境搭建和模子部署。具体技艺不错参考咱们提供的模子readme(以下通达以沐曦为例)。

https://www.modelscope.cn/models/FlagRelease/DeepSeek-R1-FlagOS-Metax-BF16

5行敕令完成从零运行在非Nvidia的AI芯片作事器部署DeepSeek-R1全经由

基于FlagOS研发的DeepSeek-R1多芯片版块提供了预成立芯片镜像,可绕过分散式环境搭建与芯片专属成立,达成零资本适配,大大便捷了用户在不同AI芯片作事器上头部署和使用DeepSeek-R1模子。当今,首批完成了5种不同厂商的AI芯片支抓,更多AI芯片支抓将于近期不时上线开源。同期,以FlagOS时期栈为基础,异日将支抓更多优秀大模子在多种AI芯片的版块发布。

基于FlagOS的DeepSeek R1跨芯片模子性能在准确性上可全濒临王人使用英伟达H100的模子性能。

DeepSeek-R1-H100-CUDA 是基于 CUDA 在 H100上部署的基线性能,基本不错收复Deepseek R1时期证据上的数值。

DeepSeek-R1-H100-FlagOS是在H100 GPU上愚弄FlagOS达成的模子,其性能与基线模子相匹配,诠释了跨芯片部署的可行性和一致性。

DeepSeek-R1-FlagOS-Cambricon-BF16是基于FlagOS在寒武纪芯片上基于FlagOS和BF16羼杂精度时期部署的模子,其性能得胜与基线模子对王人,展示了跨芯片迁徙的高性能后劲。

DeepSeek-R1-FlagOS-Metax-BF16是基于FlagOS 在沐曦芯片上愚弄FlagOS和BF16羼杂精度时期部署的模子,其性能一样与基线模子相匹配,进一步考证了模子跨不同芯片平台的兼容性和厚实性。

DeepSeek-R1-FlagOS-Iluvatar-INT8是基于FlagOS在天数芯片上基于FlagOS和INT8量化时期部署的模子。尽管由于量化时期的应用,性能略有下跌,但仍然保抓了较高的准确性。

基于FlagOS的DeepSeek-R1在各芯片上的评测扫尾

注:1. 本评测扫尾由FlagEval 提供。现时版块的发布触及到在多个芯片平台上进行性能评估,股票配资杠杆平台这一过程需要较万古辰来完成,咱们将证据评估程度,迟缓更新并公布各平台的性能对王人扫尾。确保大略提供准确和可靠的性能数据,以忻悦不同硬件环境的需求。

2. 本测试仅用于考证模子迁徙后与英伟达版块服从的一致性,但由于适配芯片架构与产生原参数的芯片架构存在互异,因此在同数值精度(及同量化计策)条目下各数据集的评测计算互异在1%内则视为服从一致。

FlagGems是由智源聚拢多家公司研发的大模子通用算子库,基于 OpenAI Triton 谈话并支抓多种芯片架构。凭借 Triton 谈话的通达性与纯真性,FlagGems 为多种加快硬件提供了和谐且高效的算子层生态接入决议。当今,FlagGems 是大众范围内基于 Triton 拓荒的算子粉饰最全面的通用算子库,已展现出以下特质:

· 数目丰富:算子总额跨越140个,且算子类型的广度远超同类竞品。

· 性能优胜:90%以上平均性能杰出Pytorch CUDA版块。

· 多后端支抓:当今支抓7种加快器后端,经过抓续优化,性能加快比普及显耀。

· 编削时期:选用特有的代码生成优化及运行时优化时期,二次拓荒服从及运行时性能优于同类花式。

FlagGems算子库已初步考证多元芯片和谐算子层的路子可行性。同期,构建了从模子应用企业、系统集成商到芯片企业全链路产业生态。异日,算子库缱绻进一步普及性能,支抓更多模子和芯片,引颈多元异构芯片和谐生态的时期前沿和产业落地。

FlagScale由智源聚拢生态伙伴,基于开源时期共同构建的面向多芯片开源大模子框架,旨在普及狡计资源愚弄服从,并确保模子锻练与推理服从。通过提供模子拓荒、锻练和部署等全经由关键组件,FlagScale戮力于于成为优化大型模子职责经由服从与服从的必备开源器具包,具备如下特质:

· 早先的异构混训时期:初次达成不同代际与不同架构芯片之间大模子异构羼杂锻练,提供通用的多维异构羼杂并行计策,支抓不同厂商跨节点RDMA直连和CPU中转通讯。

· 高效的端到端锻练与推理:支抓智源表里10余种模子的端到端预锻练与推理,涵盖广宽和稀少模子,触及谈话与多模态鸿沟,参数限度达千亿量级。在LLaVA-OneVision同成立下,锻练服从达到DeepSpeed的1.7倍;多模态CFG推理服从达到HuggingFace的3.8~6.7倍。

· 跨芯片自动调优智商:为用户提供开箱即用的自动调优器具,仅需通过成立即可一键获得性能最优的并行计策。这大幅裁汰了分散式锻练与推理的部署门槛。通过自动调优,骨子测试中多款芯片的性能平均普及11.3%。

· 多芯片锻练与推理适配:与厂商共建,已在8家不同芯片上完成锻练与推理适配,达成算子、预锻练蚀本、微调蚀本及评测服从四个层级的精度对王人。涵盖谈话和多模态鸿沟多个不同限度的模子,并得胜达成非英伟达芯片上千卡的端到端竣工锻练。

FlagCX是智源聚拢生态合营伙伴,构建并开源的异构和谐通讯库,是填补多元算力开源软件栈的重要河山,它不仅大略达成不同芯片之间的跨节点高效通讯,支抓单一任务在多芯片环境下的高效异构羼杂锻练,还能达成大限度自合乎通讯优化,显耀裁汰跨芯片、跨限度、跨任务的迁徙资本。FlagCX具备以下特质:

· 圭臬化:功能和接口进行和谐圭臬化,将厂商适配资本极地面减少。

· 兼容性:兼容PyTorch等框架,兼容厂商自研通讯库,兼容圭臬IB/RoCE集结公约等。

· 自合乎:针对不同任务负载、不同集群限度、不同厂商芯片等,将提供自动调优机制。

· 高性能:现时已在同构芯片上达成通讯的零支出分发,而在异构跨机通讯达到峰值带宽90%以上。

为更好地鞭策异构和谐通讯库FlagCX的发展,加快关系圭臬的研制及落地应用,智源正在积极构建关系软件生态。通过产学研的协同编削,造成良性轮回,加快异构和谐通讯库的时期推论与应用落地。

FlagEval(天秤)是智源于2023年推出的大模子评测体系及通达平台,戮力于于建立科学、自制、通达的评测基准、顺次及器具集,旨在协助商榷东谈主员全面评估基础模子及锻练算法的性能。

FlagEval已迟缓推出一系列评测器具,涵盖谈话大模子评测、多谈话文图大模子评测及文图生成评测等多个鸿沟,通过系统化的器具诞生,平台不仅达成了对千般大谈话模子和跨模态模子的无为评测,还进一步拓展了评测场景,粉饰当然谈话科罚(NLP)、狡计机视觉(CV)、音频科罚(Audio)及多模态(Multimodal)四大鸿沟,并支抓丰富的卑鄙任务。放肆当今,FlagEval已完成对800多个国表里大模子的评测,支抓谈话问答、多模态图文表现、文生图、文生视频四大任务的自界说在线或离线盲测开户,为模子性能的全面评估提供了强有劲的支抓。



Powered by 股票配资杠杆平台 @2013-2022 RSS地图 HTML地图

建站@kebiseo; 2013-2024 北京万生私募基金管理有限公司 版权所有