近日,新思科技技术产品管理高级总监Madhumita Sanyal、英特尔高级首席工程师Swadesh Choudhary、三星SSI高级首席工程师Siamak Tavallaei、科睿奥科技技术高级总监Mohsen Asad,围绕存储接口、芯片互连技术以及存储访问扩容等议题展开交流。

从左至右依次为:新思科技 Sanyal、英特尔 Choudhary、科睿奥 Asad、三星 Tavallaei
提问:现实场景中,数据传输远比互连标准定义的更为复杂。各类数据传输速率不一,传输通道数量众多且性能存在差异,同时硬件老化速度也各不相同,行业该如何应对这类问题?
Madhumita Sanyal:可行思路之一是在整体系统正式搭建完成前开展端到端仿真测试。也就是搭建包含各类接口、传输通道在内的系统仿真模型,充分考量不同加速单元之间、加速单元与主控端之间数据通路存在的性能波动与传输异常问题。借助端到端仿真能够有效规避研发风险,同时全面掌握整系统运行状态。
提问:当下AI智能体应用快速普及,相关业务场景持续迭代变化,还会产生各类温度梯度差异问题。仿真测试固然至关重要,但长期来看,这套方案能否切实解决上述各类实际难题?
Mohsen Asad:这正是目前面临的核心痛点。很多系统初期运行状态良好,但在高负载工况下出现升温异常,甚至直接宕机,这类情况十分普遍。实际硬件工况并非仅由0和1两种数字状态构成,各类参数波动无处不在。产品研发阶段必须实现快速迭代、快速搭建样机、快速完成测试,在大批量产品交付客户前尽早排查故障。研发人员要主动提前排查问题,发现故障后配套对应的纠错机制与信号均衡优化方案。部分异常现象看似属于故障问题,实则是容性电路特性所致;有些核心架构预留的冗余容量甚至超出实际需求八倍之多,但这类设计空间也能催生出全新商业机遇。
Madhumita Sanyal:如果能够对整系统运行状态进行实时健康监测,便可提前预判故障隐患,实现故障前置预警。
Swadesh Choudhary:在此类技术研发中,简化设计逻辑、搭建分层抽象架构愈发重要。系统可靠性、可用性与可维护性相关设计极易变得繁杂无序。行业亟需打造简洁通用模型,适配愈发复杂的硬件系统,实现故障精准定位,预留充足处置时间,避免整体系统全面瘫痪,保障运维人员及时检修故障部件、完成系统故障恢复。
提问:如今芯片设计中商用芯粒应用愈发普及,行业能否精准预判各类芯粒的运行表现,以及其对整体系统带来的实际影响?
Swadesh Choudhary:想要精准预判难度极大,尤其在混搭不同工艺节点、不同封装工艺的芯粒组合场景下。接口兼容性与互连互通性是首要考量重点。在定义DDR内存规格参数时,必须预留充足性能余量。目前行业正不断完善各类调试功能、开展眼图余量测试、搭建实时运行监测机制,力求在系统宕机前及时推送异常告警。多芯粒集成封装模式大幅提升了现场运维难度,因此需要在芯粒内部增设冗余设计与应急备用功能,确保系统异常时备用单元可快速接管运行。从封装层面来看,行业需要统一通用测试信号与状态变量标准,实现异常状态统一上报与全局同步预警。
Siamak Tavallaei:随着相关产品出货量持续走高,墨菲定律体现得愈发明显,各类潜在故障都会陆续显现。该问题最初源自行业规格标准制定层面:书面制定的规范标准划定了统一执行框架与架构设计准则,而实际落地应用中总会出现各类偏离标准的意外状况。企业会结合自身业务需求、客户诉求,选择性落地标准内的可选功能模块,优先落地高价值技术方案,这便是基础规格标准的落地逻辑。在此之上还会形成细分设计规范,最终落地形成终端产品。企业以盈利和长期运维为目标研发产品,势必会严格把控设计指标,避免因参数不达标、标准化缺失引发客户投诉。
提问:CXL与PCIe协议未来能否实现整机柜层级全域贯通应用?
Siamak Tavallaei:所有互连协议均采用分层架构,最底层为物理层,向上依次为链路层、事务层及各类高层应用架构。CXL协议演进依托PCIe发展而来,PCIe则承袭自更早的PCI架构,再往前可追溯至EISA、ISA架构,这类技术最早源自IBM个人电脑体系。在物理层架构不变的基础上,行业陆续开发出配套固件、调试工具、协议分析仪以及多层级软件管理体系。底层硬件架构可以迭代升级,目前市场已推出成熟CXL设备、CXL内存控制器及配套交换芯片,企业均可依托现有硬件产品搭建方案、打磨上层软件生态,后续再灵活切换其他互连架构。而内存池化部署、安全机制、系统可靠性统筹调度等高层应用逻辑,无需随底层硬件同步变更。
提问:行业未来是倾向于在同一系统内兼容多种不同互连方案,还是依托成熟现有生态构建整体技术方案?
Siamak Tavallaei:大型云服务商单座数据中心内设备数量动辄数十万级,若每一台机柜硬件架构、通信标准都互不统一,后期故障排查难度将急剧攀升。从技术层面而言多方案兼容具备可行性,但统一设计标准、完成批量资质认证落地效率更高。企业没有充足精力完成全品类产品适配认证,优选一套成熟方案完成全流程认证后批量复制落地,是更务实的选择。
Madhumita Sanyal:目前市场主流主控端与固态硬盘、主控端与加速芯片之间,普遍采用PCIe与CXL互连方案。现阶段启动新项目研发的企业,未来在加速芯片之间互连场景中或许会引入UALink,但依旧会兼容CXL协议。短期之内,UALink很难全面替代CXL与UCIe协议。
Siamak Tavallaei:你的意思是CXL内存设备会持续普及,但CXL加速芯片普及节奏会相对滞后吗?
Madhumita Sanyal:我所指的是主控端与加速芯片、主控端与固态硬盘之间的通信链路,这类场景依旧以CXL为主流。企业自研加速芯片时,通常会同时集成CXL、PCIe、UALink多种接口;部分高带宽需求场景还会将单颗加速芯片拆分做多颗同尺寸裸片组合使用,裸片之间依靠UCIe互连,而加速芯片对接主控端依旧沿用CXL协议。
Siamak Tavallaei:想要充分释放硬件性能,就必须走定制化、专业化路线。企业会针对不同应用场景做技术深耕,只要定制化接口方案具备商业价值,相关定制化研发就会持续推进。但行业很难形成一套大一统的全能互连协议,未来依旧会并存各类细分场景专属解决方案。如今超大规模云厂商采购需求庞大,各类小众定制化硬件方案也能实现规模化量产落地。
本文转自媒体报道或网络平台,系作者个人立场或观点。我方转载仅为分享,不代表我方赞成或认同。若来源标注错误或侵犯了您的合法权益,请及时联系客服,我们作为中立的平台服务者将及时更正、删除或依法处理。
