日前,有投资者在互动平台向龙芯中科提问9A1000是否成功流片。
9月15日,龙芯中科回复称,龙芯首款GPGPU芯片9A1000的研发基本完成,三季度内会交付流片。成功与否需待流片回来后的测试结果。
据悉,龙芯9A1000显卡主要定位于入门级市场及AI推理加速领域,其性能目标直指AMD的RX 550显卡。
提及RX 500系列,这是AMD一款极具里程碑意义的作品,尤其以RX 580为代表的型号至今仍在不少玩家手中发光发热;即便是RX 550这样定位相对亲民的版本,也保持着较高的活跃度。
回顾RX 550,这款显卡采用GF14纳米制程工艺,搭载GCN 4.0架构,内含512个流处理器,匹配128-bit带宽的2/4GB GDDR5内存配置,采用PCIe 3.0 x8接口规范,TDP仅为50W,其综合性能大致与NVIDIA的GTX 650 Ti Boost相仿,堪称高效能与低功耗兼备的经典之作。
依据官方资料,龙芯9A1000显卡芯片的一大亮点在于对PCIe 4.0系统总线的支持,并且适配128-bit LPDDR4X高速显存。尽管具体的计算核数、显存规模、运作频率及功耗数据尚未公布,但从已曝光的结构图中可窥见其布局了八大计算集群,辅以片上互联网络与二级缓存机制,预示着不俗的内部架构设计。
在软件兼容层面,龙芯9A1000全面拥抱OpenGL 4.0、OpenCL 3.0等行业主流图形与计算API,内置专业级视频处理组件,硬解码能力覆盖H.264、H.265编解码标准,同时支持HDMI 2.1、DisplayPort 1.4以及经典的VGA等多种显示输出协议。
深入剖析其性能规格,龙芯9A1000拥有高达16GP/s(每秒160亿个像素点)的像素填充速率,纹理填充速率为32GT/s(每秒320亿个纹理元素),浮点运算能力可达FP32精度下1TFLOPS(每秒1万亿次)、FP64精度下64GFLOPs(每秒640亿次),而在INT8整数运算环境下则飙升至32TFLOPS(每秒32万亿次)。这些指标共同描绘了一个兼顾图形渲染与深度学习加速的强大计算平台轮廓。
过去,GPU正如其全名Graphics Processing Unit所对应的中文“图形处理器”一样,主要用来处理图形渲染等工作。而今,GPU被赋予了更为“多面手”的角色。以当下火爆的AI大模型为例,当研发人员进行模型训练时,需要处理数以万亿计的数据。而如果把处理这些海量数据的过程比作数字时代的“耕地”,GPU就像同时开启成百上千台高效能自动化拖拉机,在极短时间内把这些“地块”处理完毕,让AI模型的运行更加高效。
龙芯自2016年便启动了GPU的预研工作,初衷是为CPU提供配套支持。 彼时,GPU行业远不如现在这般火热,在龙芯CPU的应用推广过程中,因GPU引发的问题不断涌现。 例如,进口GPU芯片供货渠道不稳定,嵌入GPU在桌面场景不可用等。 这些因素致使龙芯电脑在功能、性能和性价比上大打折扣。由此,龙芯总结出规律:凡是做CPU的企业,都必须要有自己的GPU。
起初,龙芯团队在GPU领域近乎从零起步,但秉持着“不会比CPU还难” 的信念开始探索。然而,深入研究后发现,GPU作为图形应用的加速系统,涉及众多应用层相关背景知识,且缺乏像CPU那样明确的资料,入门学习难度极大。为此,团队从图形算法调研入手,历经模拟器架构设计研究、模拟器验证、逻辑设计和功能验证等环节,耗时5年才推出第一代图形GPU架构。随后,又用2年时间进行两次小迭代,升级至龙芯7A2000与龙芯2K2000并推向市场。
在第一代GPU进入产品迭代阶段后,龙芯迅速启动第二代GPU架构的升级工作,目标是推动GPU迈向发展的第四个阶段,即从图形处理器(GPU扩展为通用图形处理器(GPGPU)。
9A1000并非龙芯唯一的显卡项目。该公司还在研发9A2000,这是一款面向中高端显卡,应用于桌面和服务器,通过优化和堆料,做大做强。GPU核升级到第三代架构,单位面积算力进一步提升,图形 API 支持 OpenGL4.6,加入虚拟化支持,张量单元支持更多数据类型,GPU规模 x4(vs 9A1000),单精度浮点算力 5Tflops,INT8 AI 算力 160TOPS,内存带宽 256GB/s,支持双片互联,总体性能再翻一倍,达到同工艺代下国际先进水平。此外,龙芯也计划推出9A3000作为9A2000的后续产品,但目前尚无任何规格信息。
本文转自媒体报道或网络平台,系作者个人立场或观点。我方转载仅为分享,不代表我方赞成或认同。若来源标注错误或侵犯了您的合法权益,请及时联系客服,我们作为中立的平台服务者将及时更正、删除或依法处理。