个人中心

登录 | 注册

咨询/预约我的订单我的网课我的问答我的评价我的权益浏览记录我的收藏
机构中心

教培机构
教培机构入驻教育宝平台、搭建私域流量运营系统或购买百度知了好学

查看详情登录后台

网课机构
录播课程和知识付费机构入驻教育宝网课平台

查看详情登录后台

基础教育学校
公立私立幼儿园、中小学、职业学校入驻教育宝学校库

查看详情登录后台

课外活动机构
研学、周末活动、冬夏令营机构入驻研学活动子平台

查看详情登录后台

老师/大咖
各细分领域的资深老师、教练和从业者入驻教育宝大咖平台

查看详情申请合作
平台客服
- 400-601-2788

大连码上未来IT培训

磨砺教育初心，码上成就未来

码上未来IT培训老师直接接听

400-029-09** 转 36015

查看完整号码

扫码拨号

微信扫码拨号

华为盘古 Ultra MoE 模型：国产 AI 自主化的里程碑

2025/6/13 0:24:46

2025 年 5 月 30 日，华为正式发布参数规模达 7...

2025 年 5 月 30 日，华为正式发布参数规模达 7180 亿的盘古 Ultra MoE（混合专家模型），全程基于昇腾 AI 计算平台完成训练，刷新了国产大模型参数纪录。这一突破不仅标志着中国在超大规模人工智能模型领域的自主研发能力达到新高度，更通过全栈国产化技术路径，为全球 AI 技术发展提供了可借鉴的中国方案。01｜技术架构的革命性突破盘古 Ultra MoE 采用 256 个路由专家的 MoE 架构，每个任务激活 8 个专家协同工作，在保持 7180 亿总参数的同时，将激活参数控制在 390 亿，实现了模型规模与效率的平衡。为解决超大规模模型训练稳定性难题，华为团队提出Depth-Scaled Sandwich-Norm（DSSN）稳定架构和TinyInit 小初始化方法，通过在子层输出加入额外归一化层并优化初始化策略，将梯度突刺率降低 51%，成功支撑超过 18TB 数据的长期稳定训练。在昇腾 CloudMatrix 384 超节点集群上，通过优化算子执行序和内存管理策略，盘古 Ultra MoE 的算力利用率（MFU）从行业平均的 30% 提升至 41%，达到国际水平。模型还引入Multi-head Latent Attention（MLA）机制，有效压缩 KV Cache 空间，缓解推理阶段的内存带宽瓶颈，同时采用Dropless 训练策略避免训推不一致问题，提升数据利用效率。02｜国产算力自主化的全链条验证盘古 Ultra MoE 的训练全程依托昇腾 AI 计算平台，从底层硬件到上层算法实现完全自主可控。昇腾 910B 训练芯片采用 7nm 工艺，单卡 FP16 算力达 320 TFLOPS，结合 CANN（异构计算架构）的算子优化和分布式训练支持，构建了高效可靠的算力底座。CANN 通过图编译优化和多流并行技术，将 Transformer 网络的融合算子开发周期从 2 人月缩短至 2 人周，显著降低大模型开发门槛。在昇腾生态支持下，盘古 Ultra MoE 的训练流程实现软硬协同优化：隐藏维度 7680 维精准匹配昇腾芯片的 16×16 MatMul 单元，61 层 Transformer 结构适配流水线并行调度，256 个专家的设计则提升 All-to-All 通信效率。这种深度适配使盘古 Ultra MoE 在昇腾集群上的训练效率较通用平台提升 40%，验证了国产算力平台支持超大规模模型开发的可行性。03｜行业应用的规模化落地盘古 Ultra MoE 在多个领域展现出显著优势：金融风险预测准确率达 92.7%，工业控制代码生成耗时缩短至 1 分钟，医疗影像分析效率提升 80%。润达医疗基于该模型研发的 “良医小慧” 系统，在基因测序数据分析中实现效率跃升；拓维信息开发的交通行业 CV 大模型，显著优化了智能交通系统的决策能力。为降低企业应用门槛，华为同步推出 720 亿参数的盘古 Pro MoE 模型，以 160 亿激活参数实现媲美千亿级模型的性能，将 AI 研发成本降低 60%。这种 “超大规模模型 + 轻量化版本” 的组合，使金融、制造等行业的中小企业也能快速接入先进 AI 能力。04｜全球 AI 竞争格局的重塑在国际对比中，盘古 Ultra MoE 的 7180 亿参数规模已超越百度文心一言（1750 亿）、阿里通义千问（1.8 万亿 MoE）等国内竞品，在参数密度和训练效率上更具优势。其 128k 长序列处理能力（可处理 17 万字上下文），在复杂文档分析、法律文书生成等场景远超 GPT-4 的 32k 限制。盘古 Ultra MoE 的发布也为全球 AI 行业提供了新范式。其EP-Group 负载均衡 loss设计，通过专家特化提升领域适应性，在 20B 参数量模型测试中平均性能提升 1.5 个点；单头 MTP 扩展至多头的推理优化方案，使多 Token 投机推理速度提升 30%。这些技术创新为解决算力稀缺背景下的模型演进提供了中国方案。05｜未来发展的战略布局华为正将盘古 Ultra MoE 的技术框架深度整合至华为云盘古大模型体系，计划在 2025 年底前开放医疗、金融等 10 个行业的专属模型服务。同时，昇腾生态已吸引超过 50 万开发者，覆盖智能终端、自动驾驶、工业互联网等领域。在边缘计算场景，昇腾 310B 芯片凭借 16TOPS INT8 算力和 8W 低功耗特性，配合盘古 Ultra MoE 的轻量化版本，可实现每秒处理 12 路 1080P 视频流的实时分析，成本较进口 GPU 方案下降 40%。这种 “云边端协同” 的技术路径，将推动 AI 从数据中心向更广泛的应用场景渗透。结语｜盘古 Ultra MoE 的诞生，是中国 AI 产业从 “跟跑” 到 “并跑” 再到 “部分领跑” 的重要标志。其全流程基于国产算力平台的训练实践，不仅验证了技术自主化的可行性，更通过行业应用的规模化落地，展现了 AI 赋能实体经济的巨大潜力。随着昇腾生态的持续完善和盘古模型的迭代升级，华为正引领中国 AI 产业向更高水平的自主可控迈进，为全球 AI 技术发展贡献中国智慧。学习详情请咨询夏老师

The CodingFuture&The Future is Already Here

添加微信咨询

夏老师 @大连码上未来IT培训

资深职业咨询规划师

微信号：155******12

立即咨询

机构评分

环境：5.0师资：5.0服务：5.0效果：5.0

公示信息

店铺名称：大连码上未来IT培训

单位名称：码上未来科技(大连)有限公司

账号名称：mswl（158******92）

所属城市：辽宁大连

入驻时长：6年

在线客服：在线聊

华为盘古 Ultra MoE 模型：国产 AI 自主化的里程碑

未来展望篇：从工具到自主智能体

社会影响篇：AI 重塑就业与生活范式

技术突破篇：多模态与深度推理的跨越

商业模式篇：从通用模型到行业定制

算力基建篇：智能算力的军备竞赛

机构评分

公示信息

相关课程