Meta新建两座数据中心集群:内含超4.9万块英伟达H100 GPU
时间:2024-03-13
来源:未知
作者:Gushan
Meta 公司当地时间 12 日通过官方新闻稿公布了两座新的数据中心集群,该公司正希望通过英伟达的 GPU,在以 AI 为重点的开发中脱颖而出。据悉,这两座数据中心的唯一目的,是在消费者特定应用领域中进行 AI 研究和大语言模型的开发,每个集群都包含了 24576 块英伟达 H100 AI GPU,将用于自家大语言模型 Llama 3 的训练。
两座新建的数据中心集群都具有 400Gbps 互联功能,其中一个集群采用了 Meta 基于 Arista 7800 自主开发的 Fabric 解决方案,而另一个集群则采用了英伟达的 Quantum2 InfiniBand Fabric,以确保无缝互连体验。
此外,集群基于 Meta 自家的开放式 GPU Grand Teton AI 平台,可通过提高主机到 GPU 的带宽和计算能力,充分利用现代加速器的功能。
Meta 官方表示,这些集群的高性能网络结构的效率及关键存储决策、配合每个集群中的 H100 GPU,能够为更大、更复杂的模型提供支持,为通用人工智能产品开发、AI 研究的进步铺路。
1 月报道,Meta 首席执行官扎克伯格宣布公司正在建设庞大的基础设施。“预估到今年年底,我们将拥有大约 35 万片英伟达 H100 加速卡,如果算上其它 GPU 的话,其计算能力相当于 60 万片 H100。”