May 23, 2020 Viewed: 782 Tag: 数聚梨推荐

微软为OpenAI建造了一台超级计算机，用于训练大规模AI模型

微软正在为OpenAI构建一台超级计算机，并与其一起使用，并正在使用它来训练大规模的分布式AI模型，并依靠它来改善自己软件和服务中的AI功能。

微软去年7月向OpenAI投资了10亿美元，OpenAI是前Y Combinator总裁Sam Altman和Tesla首席执行官Elon Musk共同创立的研究组织。当时，微软和OpenAI表示将建立独家的多年合作伙伴关系，以构建新的Azure AI 超级计算技术。在5月19日的Build 2020上，微软公开了有关正在发生的超级计算机工作的更多详细信息。

微软官员表示，他们已经建造了第五大功能最强大的公开记录超级计算机（在TOP500超级计算机列表中排名）与OpenAI合作并专门用于OpenAI。该超级计算机专门用于训练大规模分布式AI模型。AI研究人员认为，单一的大型模型将比过去的较小的单独的AI模型表现更好。

微软已经建立了自己的大型AI模型家族，称其为Microsoft Turing模型。这些模型已用于改善Bing，Office，Dynamics和其他产品之间的语言理解。微软已经公开发布了被认为是世界上最大的公开AI语言模型：用于自然语言生成的Turning模型。

官方在Build上表示，他们将开始“很快”开放Microsoft Turing模型的开源，以及使用Azure机器学习训练它们的方法。微软还为其ONNX Runtime添加了对分布式培训的支持，ONNX Runtime是一个开放源代码库，用于使模型可以跨硬件和操作系统移植。

他们说，虽然微软建造的AI超级计算机专用于OpenAI，但微软计划通过Azure AI服务和GitHub提供其大型AI模型和培训优化工具。微软还以“ Azure AI”的名义向不需要专用超级计算机的客户提供了各种加速器和服务。
微软表示，为OpenAI打造的超级计算机是一个拥有285,000多个CPU内核的单一系统。每个GPU服务器的10,000个GPU和每秒400千兆字节的网络连接。超级计算机托管在Azure中，并且可以访问Azure服务。

我相信微软一直在做的超级计算机工作可能会被代号为“奥德赛”。我最近在Microsoft的一份工作清单中找到了一些有关Odyssey的参考资料，该人成为Azure与Open AI合作的主要联系人，并且他们将与“众多供应商和合作伙伴（包括Cray，HPE，Mellanox）一起工作和NVIDIA）。”

Azure存储团队最近还发布了一个机会来研究“由数以万计的商用PC组成的大规模并行超级计算机”（相当于20,000、30,000或100,000台计算机的电源和存储），以解决直接解决的问题。影响微软的搜索，广告和门户业务。我相信这也可能与图灵/奥德赛的工作有关。

Turing是微软更广泛的计划的一部分，该计划被称为“大规模AI”。大规模AI的核心前提是人们可以在强大的基础设施上训练真正的大型神经网络，然后在许多情况下重用相同的模型以显着改善各种产品中的AI。Microsoft训练了一种语言理解模型，称为Turing NLR，并且正在针对Microsoft Bing，Word，SharePoint和Outlook中的多个产品的各种场景重用相同的模型。

尽管Microsoft客户不能直接使用OpenAI超级计算机，但他们可以使用公司升级的Azure计算基础结构；其开源的DeepSeed软件可训练大规模模型；官员说，它的ONNX运行时可以更快，更便宜地部署和运行模型。那些无法或不愿意训练自己模型的人可以重用Microsoft的Turing模型，有时甚至可以重用Turing NLR模型。