华为云首发适配DeepSeek-V4，多产品完成接入

来源：半导体产业纵横发布时间：2026-04-25 12:46

DeepSeek

华为

生成海报

华为云MaaS模型即服务平台已为开发者提供免部署、一键调用DeepSeek-V4-Flash API的Tokens服务。

4月24日，DeepSeek-V4模型正式发布并开源，华为云首发适配。DeepSeek-V4 拥有百万Token超长上下文，在 Agent 能力、世界知识和推理性能上均实现国内与开源领域的领先。其中，DeepSeek-V4-Flash模型参数下降至284B，推理成本进一步降低，模型参数和激活更小，V4-Flash 能够提供更加快捷、经济的 API 服务，实现百万上下文普惠。

当前，华为云MaaS模型即服务平台已为开发者提供免部署、一键调用DeepSeek-V4 -Flash API的Tokens服务。企业也可通过华为云魔坊（ModelArts）模型训推平台，一键完成推理服务部署上线。华为云码道（CodeArts）代码智能体与OfficeClaw办公智能体，现已接入DeepSeek新模型，限邀免费体验。同时，用户可通过华为云AgentArts智能体开发平台，基于DeepSeek快速搭建专属智能体或通过在华为云Flexus上部署的OpenClaw、Hermes Agent调用，进一步释放模型能力。

在此次新模型适配过程中，华为云在系统层、算子层和集群层的关键能力上协同，分别从调度效率、计算效率和数据流转效率三个维度保障新模型快速适配与高性能落地。

针对DeepSeek-V4，华为云首发适配模型分层注意力压缩机制，实现V4注意力机制下KVCache的高效分配管理，提供TopK、SWA、CFA等10+昇腾高性能融合算子，搭配框架异步调度、MTP多步投机等框架优化，支持原生1M长上下文的高性能推理。DeepSeek V4通过超节点高带宽网络互联，重新设计PD分离模块，实现KVCache高效传输，支持DeepSeek-V4 模型推理性能达成业界领先，实测4P（Prefill）1D（Decode）部署形态下，CloudMatrix 384单卡Decode吞吐可达3300TPS。

华为云以高效的AI基础设施为核心打造“硅基黑土地”，开放接纳自研和第三方主流大模型和众多智能体，为企业解难题，提升生产效率。

本文转自媒体报道或网络平台，系作者个人立场或观点。我方转载仅为分享，不代表我方赞成或认同。若来源标注错误或侵犯了您的合法权益，请及时联系客服，我们作为中立的平台服务者将及时更正、删除或依法处理。