龙芯中科:凡是做CPU的企业,都必须要有自己的GPU

来源:半导体产业纵横发布时间:2025-06-26 17:49
龙芯中科
CPU
GPU
生成海报
龙芯的目标是打造独立于wintel/ AA 体系的中国自主信息技术体系和产业生态。

今日龙芯中科在北京举办了“2025 龙芯产品发布暨用户大会”,会上龙芯3C6000系列处理器正式发布,包括龙芯3C6000/S/D/Q等。

最新发布的龙芯3C6000采用我国自主设计的指令系统龙架构,无需依赖任何国外授权技术,是我国自主研发、自主可控的新一代通用处理器,可满足通算、智算、存储、工控、工作站等多场景的计算需求。目前,3C6000系列处理器已获《安全可靠测评公告》当前最高等级二级认证,可确保关键领域应用安全。

龙芯3C6000基于LA664架构内核,六发射流水线,通用性能比上代成倍提高。单硅片拥有16核心32线程,频率为2.0-2.2GHz,同时拥有32MB的片上高速缓存(LLC),支持四个72位内存通道,拥有多个PCIe 4x16/8接口,IO性能相比上一代3C5000成数量级提升。

通过龙链技术实现片间互连,双硅片封装即3C6000/D(3D6000),拥有32核心64线程;四硅片封装即3C6000/Q(3E6000),可达60/64核心120/128线程。

其中龙链技术是对标NVLink,用于算力之间的互连,破解Chiplet的关键核心技术,可大幅降低延迟,提高带宽效率。性能方面,16核心的2.2GHz 3C6000/S性能可达Intel第3代至强4314(10nm/16核心32线程/2.4-3.4GHz/24MB/135W)水平。

32核的3C6000D对标至强6338(32核心64线程/2.0-3.2GHz/48MB/205W);64核心的3C6000/Q更是可以对标至强铂金8380(40核心80线程/2.1GHz/60MB/270W)。

胡伟武表示,从龙芯3C6000系列开始,性价比将逐步取代自主性成为选择龙芯CPU的主要原因。

此次发布的还有龙芯2K3000/3B6000处理器,同样采用自主指令系统龙架构。

图片

龙芯2K3000 和龙芯 3B6000M 是基于相同硅片的不同封装版本,分别面向工控应用领域和移动终端领域。

据官方此前介绍,该芯片集成 8 个 LA364E 处理器核,基于主频2.5GHz 下的实测 SPEC CPU 2006 Base 单核定点分值达到 30 分。芯片集成第二代自研GPGPU 核心 LG200,与龙芯2K2000 集成的第一代 GPU 核心 LG100 相比,图形性能成倍提高。除图形加速外,LG200 还支持通用计算加速和 AI 加速,单精度浮点峰值性能为 256GFLOPS,8 位定点峰值性能为 8TOPS。

芯片还集成独立硬件编解码模块,支持各种主流视频格式,支持eDP / DP / HDMI 三路显示接口输出,4K 高清处理性能达到 60 帧;集成安全可信模块,可提供安全可信支持和密码服务,在 SM2/3/4 硬件算法模块外,还实现了可供软件编程使用的可重构密码模块;集成丰富的 IO 扩展接口,包括 PCIe3.0、USB3.0 / USB2.0、SATA3.0、GMAC、eMMC、SDIO、SPI、LPC、RapidIO 和 CAN-FD 等,满足不同领域的应用需求。

会上,龙芯中科技术股份有限公司首席工程师、通用GPU处理器研发总监苏孟豪以龙芯GPGPU研发进展及规划为主旨,展开演讲。

图片

苏孟豪提到,龙芯的目标是打造独立于wintel/ AA 体系的中国自主信息技术体系和产业生态,这一体系涵盖多个层次的技术,若以三层小楼作比喻:第一层是CPU 和操作系统技术第二层是网络和虚拟化技术,第三层是虚拟化技术和智能化技术。楼层越高,技术越先进,但基础的搭建需循序渐进,CPU 和操作系统是根基。

目前,龙芯的 CPU 经过长期发展积累,已具备极高的稳定性,而网络和虚拟化等第二层、第三层的技术需求,将通过 GPU 来满足。

龙芯自 2016 年便启动了 GPU 的预研工作,初衷是为 CPU 提供配套支持。彼时,GPU 行业远不如现在这般火热,在龙芯 CPU 的应用推广过程中,因 GPU 引发的问题不断涌现。例如,进口 GPU 芯片供货渠道不稳定,嵌入GPU在桌面场景不可用等。这些因素致使龙芯电脑在功能、性能和性价比上大打折扣。由此,龙芯总结出规律凡是做CPU的企业,都必须要有自己的GPU。

起初,龙芯团队在 GPU 领域近乎从零起步,但秉持着 “不会比 CPU 还难” 的信念开始探索。然而,深入研究后发现,GPU 作为图形应用的加速系统,涉及众多应用层相关背景知识,且缺乏像 CPU 那样明确的资料,入门学习难度极大。为此,团队从图形算法调研入手,历经模拟器架构设计研究、模拟器验证、逻辑设计和功能验证等环节,耗时 5 年才推出第一代图形 GPU 架构。随后,又用 2 年时间进行两次小迭代,升级至龙芯7A2000与龙芯2K2000并推向市场。

龙芯 GPU 完全从 0 开始研发,无历史包袱,具备后发优势。第一代架构设计对标世界先进水平,跳过传统 GPU 早期的固定功能管线阶段和可编程管线阶段,直接采用传统图形管线与大规模图形计算相结合的统一渲染架构。在 API 支持方面,为满足桌面应用的最低要求,选择 OpenGL 2.1/ OpenGL ES 2.0 为标准,成功适配多种系统。截至目前,第一代龙芯 GPU 的用量已达百万片规模,其可靠性和兼容性均通过市场检验,同时大幅降低了龙芯电脑的成本。第一代 GPU 的成功研发,使龙芯完成了图形处理技术的原始积累,实现从 0 到 1 的突破,团队也对 GPU 架构有了更深刻的理解。

在第一代 GPU 进入产品迭代阶段后,龙芯迅速启动第二代 GPU 架构的升级工作,目标是推动 GPU 迈向发展的第四个阶段,即从图形处理器(GPU)扩展为通用图形处理器(GPGPU)。

在功能方面,API 将从 OpenGL 3.2 逐步升级至 4.0,并考虑支持 Vulkan,同时引入计算 API 支持,从 OpenCL 1.1 起步,逐步升级至3.0;在性能方面,着重提升两个方向的能力,一是图形流水可扩展、计算性能可扩展;二是提升性能功耗比、性能面积比。为此,龙芯制定了两步走计划:第一步完成基本架构升级、基本功能实现;第二步是功能性能扩展,全面调优。

龙芯从 2021 年下半年开始,经过架构设计、模拟器验证、逻辑设计和功能验证等阶段,历时 3 年,推出第二代架构的首个版本,并集成在龙芯 2K3000 中。

在通用计算架构下,虽然图形渲染仍是 GPU 的核心能力,但设计思路已从以图形为中心转变为以计算为中心。以往是以图形流水线为主,按需调用可编程流处理器,如今则将流处理器资源通用化,图形处理以计算任务形式贯穿流水线。这一转变使得图形 API 能够自然地向 Open 标准扩展,但也大幅增加了架构设计的复杂度。在龙芯 GPU 软硬件团队的努力下,相关目标正逐步实现。

在龙芯2K3000 的研制过程中,团队开始关注智能化技术。人工智能可在 CPU、GPU 或专用 NPU 中实现。在 CPU 中实现 AI 功能,虽能融合到流水线,降低调用外部单元的开销,适合轻量级应用,但难以满足高算力需求;NPU 专注于 AI 应用,在能效和面积上具有优势,但当 AI 应用模式不确定时,专用设计可能存在局限性;而现代 GPU 不仅具备强大的图形处理能力,还拥有不错的通用处理能力,因此在 AI 应用不断创新的当下,选择 “GPU + AI” 的技术路线成为业界主流,也是龙芯的优先选择。

有了底层硬件基础,算力生态的构建至关重要,这也是龙芯软件生态的最后一环。经过调研,龙芯提出“兼容主流,拥抱开源,应用牵引,迭代发展” 的策略。龙芯加速计算平台提供OpenCL、CUDA兼容接口;支撑训练、推理等全场景AI;支持OpenGL、Vulkan;支持视频编解码加速;支持云、边、端全领域应用。

龙芯未来产品展望

图片

未来产品规划方面,龙芯9A1000 是龙芯首款 GPU 芯片,定位为支持 AI 加速的入门级显卡,GPU 核全面升级,功能方面,图形 API OpenGL4.0 / OpenCL ES3.2;性能方面,图形流水线 x2,主频提升 25%;面积方面,流处理器面积减小 20%;功耗方面,轻负载功耗降低 70%。GPU 规模 x4(vs 2K3000),性能提升 5 倍以上,AI 算力达到 40TOPS。 

图片

龙芯 9A2000 是龙芯高性能 GPU 芯片,面向中高端显卡,应用于桌面和服务器,通过优化和堆料,做大做强。GPU 核升级到第三代架构,单位面积算力进一步提升,图形 API 支持 OpenGL4.6,加入虚拟化支持,张量单元支持更多数据类型,GPU 规模 x4(vs 9A1000),单精度浮点算力 5Tflops,INT8 AI 算力 160TOPS,内存带宽 256GB/s,支持双片互联,总体性能再翻一倍,达到同工艺代下国际先进水平。

本文转自媒体报道或网络平台,系作者个人立场或观点。我方转载仅为分享,不代表我方赞成或认同。若来源标注错误或侵犯了您的合法权益,请及时联系客服,我们作为中立的平台服务者将及时更正、删除或依法处理。

评论
暂无用户评论