新型RISC-V高性能芯片与软件研究详述

来源:半导纵横发布时间:2024-08-15 14:44
RISC-V
生成海报
RISC-V 的发展势头毋庸置疑。

尽管 RISC-V 架构距离大规模商用还有数年时间,但许多人都在努力为服务器和超级计算机生产 RISC-V 做好准备。中国和欧洲正在详细研究新的高性能芯片,欧盟正在建立一个基于开源软件的 RISC-V 云计算实验环境。另外,研究人员正在测试新的 RISC-V 芯片,包括 Tenstorrent 的 Grayskull。

RISC-V 是 x86 和 ARM 架构的替代方案,这两种架构在服务器市场占据主导地位。尽管 RISC-V 离成为服务器和高性能计算机的实用选择还有数年之遥,但学术和研究机构正在缩小差距,使之成为现实。

RISC-V 的发展势头毋庸置疑。今年,一大批中国组织计划共同发布开源的香山 K100 CPU,其运行频率为 3GHz。这是一款高性能芯片,中国声称其性能比某些 ARM 服务器处理器更具优势,但还需要慎重考虑。

K100 芯片的设计是开源的,这意味着任何人都可以采用该设计。

来自欧洲和美国的研究人员也发表了一篇论文,详细介绍了一款名为 Occamy 的 432 核 RISC-V 芯片,该芯片采用 HBM2e 内存、芯片组设计和 12 纳米工艺制造。

爱丁堡大学高级研究员尼克-布朗(Nick Brown)在一篇论文中说,更快的RISC-V芯片正在面世,但要在高性能计算中推动该架构的采用,还需要在软件和硬件方面做更多的工作。

Brown说:“近年来,通过提供统一的内存空间,我们看到了高性能计算中 GPU 和 CPU 之间更紧密的集成,这带来了显而易见的好处,而 RISC-V 则通过统一 ISA 和编程模型,提供了进一步推动这种集成的潜力。”

他指出,Esperanto、Sophon 和 Tenstorrent 等公司发布了许多服务器芯片,预计 2024 年及以后会取得更多进展。

在与 RISC-V 相关的软件工作中,欧盟支持的机构正在挑起大梁。欧盟正在资助一项名为Vitamin-V的工作,旨在将RISC-V所需的软件移植到云环境中。

研究人员希望创建一个等效的软件工具链,以匹配云中的 ARM 和 x86 部署。

“Vitamin-V将提供基于LLVM的完整构建工具链。”研究人员在一篇论文中说:“除了已经支持的传统 HLL(高级语言)外,我们还将增加对 GO、Python3 和 Rust 的支持。”

云计算开发将围绕开发 Kubernetes、Docker 和 OpenStack 进行。该项目的研究人员已经在一台RISC-V服务器上开发OpenStack,该服务器配备了Sipeed公司的Lichee PI 4A开发板集群,其中包括TH1520 RISC-V CPU(4线程)、16GB内存和128GB存储空间。

开发人员使用的 Debian Linux 版本已经支持该项目的许多软件包,许多应用程序和驱动程序仍在开发和上游化过程中。

不过,研究人员正在解决基本的软件问题。

研究人员说:由于软件的成熟度问题,在所有节点上更新操作系统软件包和配置也具有挑战性。

研究人员探索使用 Devstack 和 Kolla 等工具,这些工具 “可以下载特定版本的软件包和依赖项,但在 RISC-V 上会出现许多编译问题”。

RISC-V 标准委员会正在开发一种标准服务器设计,作为制造商创建用于网络服务、游戏和数据库的 RISC-V 服务器的蓝图。

8 月初,RISC-V 发布了最新版本的服务器标准,供硬件公司基于 ISA 构建裸机服务器。

定义 RISC-V 服务器平台的文件称:RISC-V 服务器平台是 SoC 硬件、平台固件、启动/运行时服务和安全服务的集合。该平台有一个中心层,包括启动、固件和安全模块,以防止黑客入侵。服务器平台支持 CXL 和 PCIe 6.0 接口。

中央层分为操作系统层和管理程序层,负责协调软件和虚拟机。另一个分支是底板管理控制器,负责管理服务器上的配置、硬件和接口。

服务器设计计划类似于开放计算项目(Open Compute Project)为 x86 和 ARM 架构建立标准服务器设计的努力。这些设计目前已被数据库领域的顶级服务器制造商用于扩展人工智能和网络工作负载。

另外,慕尼黑工业大学进行的一项研究调查了 Tenstorrent 的 Grayskull AI 芯片,其中包括 RISC-V 处理器和 120 个 Tensix 内核。研究人员莫里茨-图宁(Moritz Thüning)选择了该公司售价 799 美元的 Grayskull e150 AI 开发者套件,并对注意力机制中使用的特定操作进行了实施和优化。

Grayskull 芯片有一个 10×12 网格的 Tensix 内核。每个内核有五个 RISC-V 内核、计算引擎、数据移动引擎和 1 MB 的 SRAM。Grayskull 的 SRAM 总容量为 120MB,超过了 Nvidia H100 GPU 的 80MB SRAM。片上网络采用环形拓扑结构,用于内核之间的通信。

SRAM 允许更快地访问与注意力机制相关的数据,从而使模型在生成每部分输出时都能关注输入数据的相关部分。

研究的重点是融合实施,包括优化矩阵乘法、缩放和 Softmax 等特定操作。Softmax 是一个关键函数,它将与对象分类相关的偏好程度转化为概率。

研究人员观察到,与带缓存的 CPU 实现相比,融合实现的速度提高了 17 倍。Grayskull 比 GPU 拥有更多的 SRAM 和并行处理能力,可实现高效处理。

Grayskull 的整体计算性能不如 H100 快,但在特定计算中更具成本效益。Grayskull 的 16 位和 8 位浮点运算性能分别为 92 TFLOPs 和 332 TFLOPs,而 Nvidia PCIe 版 H100 的性能分别为 1513 TFLOPs 和 3026 TFLOPs。

不过,Thüning 提醒我们,H100 PCIe “对普通大众来说大约要贵 30 倍”。

Thüning说:“将实现移植到更新一代(如Tenstorrent Wormhole)并在多卡上进行扩展将是非常有趣的。”

本文转自媒体报道或网络平台,系作者个人立场或观点。我方转载仅为分享,不代表我方赞成或认同。若来源标注错误或侵犯了您的合法权益,请及时联系客服,我们作为中立的平台服务者将及时更正、删除或依法处理。

评论
暂无用户评论