中国电子技术网

设为首页 网站地图 加入收藏

 
 

华为宣布开源盘古7B稠密和72B混合专家模型

关键词:华为开源盘古

时间:2025-07-01 10:09:47      来源:互联网

2025年6月30日,华为正式宣布开源盘古7B参数的稠密模型、盘古Pro MoE 72B混合专家模型和基于昇腾的模型推理技术。

2025年6月30日,华为正式宣布开源盘古7B参数的稠密模型、盘古Pro MoE 72B混合专家模型和基于昇腾的模型推理技术。

华为称,此举是华为践行昇腾生态战略的又一关键举措,推动大模型技术的研究与创新发展,加速推进人工智能在千行百业的应用与价值创造。

目前,盘古Pro MoE 72B模型权重、基础推理代码,已正式上线开源平台;基于昇腾的超大规模MoE模型推理代码,已正式上线开源平台;盘古7B相关模型权重与推理代码将于近期上线开源平台。

根据华为此前公布的信息显示,盘古7B模型为双系统框架,具备“快思慢想”功能,能够根据任务复杂度自动选择合适的模式,即在常规请求下使用“快思考”模式,在复杂推理任务下使用“慢思考”模式,从而在延迟和推理深度之间实现平衡。在多款复杂推理测试中,盘古7B的性能要强于阿里巴巴旗下的Qwen3-8B、智谱旗下的GLM4-9B,

盘古Pro MoE 72B混合专家模型参数量为720亿,在激活160亿参数量的情况下,通过动态激活专家网络的创新设计,实现了以小打大的优异性能,甚至可以媲美千亿级模型的性能表现。华为声称,该模型针对昇腾300I Duo、800I A2平台进行优化,在后者上可以实现单卡1148 token/s的推理速度。

在业界权威大模型榜单SuperCLUE中文大模型基准测评5月的数据,盘古72B在开源排行榜中位列第五,总分为58.75分,超越Qwen3-14B、Qwen3-8B,仅次于DeepSeek-R1满血版、DeepSeek-V3满血版以及Qwen3-32B和235B。

值得一提的是,盘古72B的文本理解与创作得分位居榜单之首,为80.48分,但在科学推理能力上仅有39.6分,明显弱于位居榜单前列的其余模型。

华为专家曾表示,“盘古72B是兼顾性能与推理成本的黄金尺寸,最适合行业用户用AI改造业务。”

除了前述两款模型,华为近期还推出了参数规模达7180亿新模型——盘古Ultra MoE,全流程在昇腾AI计算平台上训练。华为同时发布盘古Ultra MoE模型架构和训练方法的技术报告,披露众多技术细节。

据华为技术专家介绍,华为盘古718B Ultra MoE万卡集群预训练MFU(模型算力利用率)达到41%,实验室已达到45%;CloudMatrix384超节点训练MoE大模型,MFU超过50%。

值得一提的是,近期在华为开发者大会(HDC 2025)上,华为云还发布了盘古大模型5.5,对自然语言处理(NLP)、计算机视觉(CV)、多模态、预测、科学计算五大基础模型进行升级。同时,基于CloudMatrix 384超节点的新一代昇腾AI云服务全面上线。

  • 分享到:

 

猜你喜欢

  • 主 题:TE Connectivity 赋能下一代机器人的革新未来
  • 时 间:2025.07.08
  • 公 司:DigiKey & TE

  • 主 题:ADI 高性能产品方案助力人形机器人应用设计
  • 时 间:2025.07.16
  • 公 司:ADI & 骏龙科技

  • 主 题:小电阻大奥秘--分流电阻器使用方法之实践篇
  • 时 间:2025.07.29
  • 公 司:ROHM