英伟达和微软共同合作，训练出目前世界上最强大的语言模型之一

发布时间：2021-12-15 10:44:13来源：微软科技

（本文阅读时间：6分钟）

来源|DeepTech深科技

如需转载请联系原出处

10月11日，英伟达公司和微软公司宣布了他们共同开发的全世界迄今为止所训练的最大、功能最强的单片转换器语言模型，这一语言模型是一个拥有高达5300亿个参数的AI模型，称为Megatron-Turing自然语言生成模型，简称为MT-NLG（Megatron-TuringNaturalLanguageGenerationmodel）。

相比这两家公司之前分别各自开发训练的也是基于转换器的系统，也就是微软公司的Turing-NLG模型和英伟达公司的Megatron-LM。这次两公司共同开发的MT-NLG模型功能强大了许多。MT-NLG有着分布在105层的较之前三倍多的参数，整个系统更大更复杂。参考一下其他公司的最新的AI模型进行对比，可以更直观地了解MT-NLG的复杂度：OpenAI的GPT-3模型有着1750亿个参数。

▲图|几个著名的自然语言模型的参数数量的对比（来源：英伟达网站）

在机器学习中，参数是从之前的历史训练数据中所学习到的模型部分。尤其是在语言处理领域，参数的数量和复杂程度之间的相关性很高。对于神经网络而言，一般来说，参数越多，系统越复杂通常意味着功能越强大，因为这样系统在训练过程中将会获得更多的训练数据，系统对于语言的理解也会随之更加丰富、细致和准确，甚至获得总结书籍以及完整编程写代码的能力。

与英伟达和微软之前各自的系统相比，MT-NLG的优点在于更加擅长各种自然语言任务，例如自动完成句子、问答、阅读和推理、词义消岐等。更重要的是，它甚至还可以在几乎不需要事先微调的前提下就执行上面所说的这些任务，这也被称为少样本或零样本学习。

然而，语言模型变得越来越大所带来的除了更强大的功能，还给开发人员带来了难题：模型越大，训练也更困难，尤其是MT-NLG的模型以及数据的训练，必须同时跨多个芯片来存储和处理，因此人工智能研究员和工程师也必须想出各种技术和技巧来训练它们，并进行调整。

这次MT-NLG使用了英伟达的Selene超级计算机进行训练，该系统由560个DGXA100服务器组成，每个服务器包含8个A100GPU。

以上所有这数千个GPU都使用NVLink和NVSwitch相互连接，每个GPU都能够以每秒113万亿次浮点运算的速度运行，训练这些模型的成本非常高。在这里，英伟达和微软的工程师使用了微软的DeepSpeed深度学习库，它包含PyTorch代码，允许工程师在多个管道中并行填充更多数据。

通过英伟达Megatron-LM和微软DeepSpeed的合作，工程师们创建了一个不仅高效而且可扩展的3D并行系统，它结合了数据、管道和基于张量切片的并行性，从而能更好地应对大型模型带来的挑战。

英伟达公司加速计算产品管理和营销高级总监帕雷什·卡利亚（PareshKharya）和微软集团项目经理阿里·阿尔维（AliAlvi）在博客文章中写道：“通过将张量切片和管道的并行性相结合，我们可以在最有效的情况下运行它们。具体来说，这一系统使用了英伟达Megatron-LM的张量切片来扩展节点内的模型，并使用了微软DeepSpeed的管道并行性来跨节点扩展模型。”

▲（来源：Pixabay）

举例来说，对于有着5300亿个参数的模型，每个模型副本跨越了280个英伟达A100GPU，在一个节点内具有8路张量切片和跨节点的35路管道并行性。接着，使用DeepSpeed的数据并行性进一步扩展到数千个GPU。

为了训练MT-NLG，微软和英伟达专门创建了一个训练数据集，这一数据集主要来自ThePile，数据集中包含了来自英语网站的2700亿个令牌。令牌在自然语言中是一种将文本片段分成更小的单元的方法，它可以是单词、字符或单词的一部分。与所有AI模型一样，MG-NLP必须通过得到一系列示例来获得“训练”，从而学习数据点之间的各种模式，例如语法和句法规则。

MT-NLG的训练数据集的主要来源ThePile，是一个由开源AI研究机构EleutherAI所创建的总共835GB大小的22个较小数据集的集合。ThePile中的835GB文本包含互联网上的各类资源，从百科到学术期刊存储库，新闻剪报到代码存储库等等。

在为MG-NLG进行基准测试时，微软称当进行数学有关任务时，即使有些符号“被严重混淆”，MG-NLG也可以推断出基本的数学运算。而且系统不仅会完成普通的对算术的记忆的任务，还会主动完成那些题目中提示要求进行回答的任务，虽然MT-NLG还没有达到特别准确的程度，但这已经是自然语言处理中的一项很大的挑战。

帕雷什·卡利亚和阿里·阿尔维在博客中写道：“这次在MT-NLG中所达成的质量和结果，是将AI的最大潜力应用与自然语言中所迈出的一大步。这次开发过程中DeepSpeed和Megatron-LM的创新不仅使得AI模型开发更强大，更使得大型AI模型的训练成本更低、速度更快。我们十分期待MT-NLG将进一步塑造未来的产品，并与开发者共同探索扩大自然语言处理（NLP）的界限。”

推荐阅读

精彩活动

评论收藏

英伟达和微软共同合作，训练出目前世界上最强大的语言模型之一

【观察】中企通信与应科院合作更上层楼，加速推动“AI+AR”融入千行百业

为 2022 年设定的8大技术趋势

智慧的路 无缝的网 “硬核科幻”的交通出行会是什么样？微创光电让我们看到未来 | 新三板万里行

刚刚，中国电信重要公司再曝一把手调整！

TSN或成下一代工业网络核心，相关公司正加紧布局

南京白马高新区经济发展局局长施晨曦一行到访

重磅！比生三胎还难，三大运营商终于齐聚...

智慧的路无缝的网 “硬核科幻”的交通出行会是什么样？微创光电让我们看到未来 | 新三板万里行