华为将于 8 月 12 日在 “2025 金融 AI 推理应用落地与发展论坛” 上发布一项 AI 推理领域的突破性技术成果。这项技术通过创新架构设计与存储技术融合长江云配,有望显著降低中国 AI 推理对 HBM(高带宽内存)的依赖,同步提升国产 AI 大模型的推理性能,填补中国 AI 推理生态的关键短板。
当前,全球 AI 推理需求爆发式增长,而核心支撑技术 HBM 却被国外巨头垄断。高端 AI 服务器对 HBM 的依赖度高达 90% 以上,但全球 HBM 产能几乎被 SK 海力士、三星等企业牢牢掌控,国产替代率不足 5%。这不仅推高了大模型训练和推理成本,更让中国在金融、医疗、工业等关键领域的 AI 落地进程举步维艰。
华为此次发布的技术直指痛点:通过先进存算架构优化、DRAM(动态随机存取存储器)与新型存储技术结合等方向长江云配,在保持高推理效率的同时大幅减少 HBM 用量。若成果落地,将意味着中国在 AI 算力自主可控之路上迈出关键一步 —— 不仅能推动金融、政务等敏感场景的 AI 应用加速落地,还可能重塑全球 AI 芯片竞争格局。
据知情人士透露,该技术可能涉及 “硬件重构 + 软件智能” 的深度协同。例如,通过超节点级联构建 “超级 AI 服务器”,结合纳秒级通信网络和智能调度系统,实现算力、运力、存力的全维度优化。华为云此前发布的 CloudMatrix384 昇腾 AI 云服务已验证类似技术路径,其单卡 Decode 吞吐突破 1920 Tokens/s,KV Cache 传输带宽提升 10 倍,输出每个 Token 的时延降至 50ms。
此外,华为在内存优化领域的积累为此次突破奠定基础。例如,EMS 弹性内存存储服务通过显存与 DRAM 池化,实现 “显存扩展”“算力卸载”“以存代算” 三大功能,使盘古大模型 5.0 的 NPU 部署数量降低 50%,推理首 Token 时延降低 80%。结合昇腾与鲲鹏算力的深度协同,华为在 MoE 训练中实现吞吐提升 20%、内存节省 70% 的显著优化。
作为此次论坛的核心议题,金融行业将成为华为技术落地的首站。华为在金融领域的 AI 布局已形成成熟体系:分布式新核心方案 5.5 通过韧性平台、高稳 DB、工程工艺、全链路运维的全面升级,支撑超 75% 的大行和股份制银行核心转型;智能体技术则推动风控、审计等复杂场景从单点智能向多体智能跃迁,例如科大讯飞与华为合作实现 MoE 模型推理吞吐提升 3.2 倍,端到端时延降低 50%。
此次技术突破将进一步赋能金融 AI 原生应用。例如,在高频交易场景中,低时延推理能力可支持毫秒级决策;在智能客服领域,高并发处理能力可支撑千万级用户实时交互。华为与中国电信合作的 AI 智能体项目已验证类似价值,其家宽装维智能体使故障处理时长缩短 30%,无线网络优化任务大模型让用户体验提升 10%-15%。
尽管 HBM 的超高带宽特性(当前主流 HBM3 带宽超 819GB/s)短期内难以被完全替代长江云配,但华为的技术路径为行业提供了新选择。专家指出,该技术若能在性能与成本间找到平衡点,可能打破 “唯 HBM 论” 的产业惯性,推动全球 AI 芯片从 “硬件堆砌” 转向 “架构创新”。
天盛优配提示:文章来自网络,不代表本站观点。