人工智能 (AI) 领头羊 NVIDIA 最近宣布,Colossus 是世界上最大的超级计算机集群,用于训练 xAI 的 Grok 系列大型语言模型(LLMs),它依赖于 NVIDIA 的 800 Gbit/s Spectrum SN5600 以太网交换机以及该公司 Spectrum-X 以太网网络平台中的其他产品,用于 Colossus 的远程直接内存访问 (RDMA) 网络。NVIDIA 表示,该平台“旨在为使用基于标准的以太网的多租户、超大规模 AI 工厂提供卓越的性能”。
Colossus 目前包含 100000 个 NVIDIA Hopper GPU(图形处理单元),并且正在翻倍以包含 200000 个 Hopper。Colossus 位于美国田纳西州孟菲斯。
NVIDIA 在宣布以太网平台在集群中的作用时表示:“xAI 和 NVIDIA 在短短 122 天内就构建了支持设施和最先进的超级计算机,而这种规模的系统通常需要数月到数年的时间框架。
“Colossus 是世界上最强大的训练系统,”Elon Musk 在 X 上说,“xAI 团队、NVIDIA 和我们的许多合作伙伴/供应商都做得不错。
NVIDIA 进一步报告说,在网络结构的所有三个层中,由于流冲突而导致的应用程序延迟降级或数据包丢失为零。“它通过 Spectrum-X 拥塞控制保持了 95% 的数据吞吐量,”NVIDIA 表示。“标准以太网无法大规模实现这种性能水平,因为标准以太网会产生数千次流冲突,而数据吞吐量仅为 60%。”
“AI 正在成为任务关键型,需要提高性能、安全性、可扩展性和成本效益,”NVIDIA 网络高级副总裁 Gilad Shainer 说。NVIDIA Spectrum-X 以太网网络平台旨在为 xAI 等创新者提供更快的 AI 工作负载处理、分析和执行速度,进而加快 AI 解决方案的开发、部署和上市时间。
xAI 的一位发言人表示,它已经构建了世界上最大、最强大的超级计算机。NVIDIA 的 Hopper GPU 和 Spectrum-X 使我们能够突破大规模训练 AI 模型的界限,创建基于以太网标准的超级加速和优化的 AI 因素。
Spectrum SN5600 支持高达 800 Gbits/s 的速度,基于 Spectrum-4 交换机 ASIC。xAI 正在将 Spectrum-X SN5600 交换机与 NVIDIA BlueField-3 SuperNIC 配对。
NVIDIA 在公告结束时表示,用于 AI 的 Spectrum-X 以太网网络“带来了先进的功能,可提供高效且可扩展的带宽,具有低延迟和短尾延迟,以前是 InfiniBand 独有的。这些功能包括采用 NVIDIA Direct Path Placement 技术的自适应路由、拥塞控制以及增强的 AI Fabric 可见性和性能隔离,这些都是多租户生成式 AI 云和大型企业环境的关键要求。
11月7日,由千家网联合陕西省土木建筑学会智能建筑与智慧城市专业委员会、陕西省土木建筑学会建筑电气专业委员会主办的2024年第25届CIBIS建筑智能化峰会西安站将在西安万丽酒店隆重举办。届时,来自中国建筑西北设计研究院 、西安电子科技大学、中国电建西北院等业内专家将携手全球知名智能化品牌企业,共同探讨绿色低碳、健康建筑、智慧楼宇、建筑能效管理等热点话题,分享如何利用更智慧、更高效、更安全、更低碳的智慧技术,共同开启未来美好智慧生活。