发布时间:2022-03-21 15:54:01来源:机器之心
机器之心发布
机器之心编辑部
字节跳动AML团队内部开发了火山引擎大模型训练框架veGiantModel,比Megatron和DeepSpeed更快。
背景
近些年,NLP应用方面有所突破,Bert、GPT、GPT-3等超大模型横扫各种NLP测试后,人们发现参数量越大的模型,在算法方面表现越好,于是纷纷开始迅速向大模型方向发展,模型体积爆炸式增长。而大模型训练给现有的训练系统带来的主要挑战为显存压力,计算压力和通信压力。
Thesizeoflanguagemodelisgrowingatanexponentialrate(来源:https://huggingface.co/blog/large-language-models)
火山引擎大模型训练框架veGiantModel
针对这个需求,字节跳动AML团队内部开发了火山引擎大模型训练框架veGiantModel。基于PyTorch框架,veGiantModel是以Megatron和DeepSpeed为基础的高性能大模型训练框架。其特点包括:
同时支持数据并行、算子切分、流水线并行3种分布式并行策略,同时支持自动化和定制化的并行策略;
基于ByteCCL高性能异步通讯库,训练任务吞吐相比其他开源框架有1.2x-3.5x的提升;
提供了更友好、灵活的流水线支持,降低了模型开发迭代所需要的人力;
可在GPU上高效地支持数十亿至上千亿参数量的大模型;
对带宽要求低,在私有化部署无RDMA强依赖。
其中,ByteCCL为字节跳动自研的BytePS的升级版,针对A100/V100等各种机型拓扑做了分层规约优化,并支持了allgather、alltoall等更全面的通讯原语。
veGiantModel性能表现
硬件配置
为了展示VeGiantModel的性能,veGiantModel团队使用了自建机房的物理机,分别在A100和V100机型上做了测试,实验配置分别如下:
V100测试:每个机器8张TeslaV10032G型号GPU,网络带宽100G
A100测试:每个机器8张AmpereA10040G型号GPU,网络带宽800G
模型和对照组选择
veGiantModel选择了GPT-13B模型进行评估,seqlength是256,globalbatchsize是1536。GPT为目前市面上最为流行的transformerbased语言模型。性能对照组选择了开源社区最流行的Megatron和DeepSpeed。
测试结果
模型:GPT-13B
Megatron:v2.4,tensor-model-parallel-size设置为4,pipeline-model-parallel-size设置为4
DeepSpeed:v0.4.2,使用DeepSpeedExamples开源社区中默认的zero3的配置
运行环境
V100/TCP:100Gb/sTCP网络带宽,4机,每机8张TeslaV10032GGPU
V100/RDMA:100Gb/sRDMA网络带宽,4机,每机8张TeslaV10032GGPU
A100/TCP:800Gb/sTCP网络带宽,4机,每机8张TeslaA10040GGPU
A100/RDMA:800Gb/sRDMA网络带宽,4机,每机8张TeslaA10040GGPU
统计值:Throughtput(samples/s)
从上述数据可以看出:
veGiantModel性能更优:无论是在高带宽还是低带宽的场下,veGiantModel在V100和A100上均胜出Megatron和DeepSpeed,最高可达6.9倍提升。
veGiantModel对网络带宽要求低:veGiantModel在带宽变化对吞吐的影响相对最小(<10%),而DeepSpeed(ZeRO)是对带宽要求最高的,最高可达将近5倍的差距。
原因解析
veGiantModel为什么比Megatron和DeepSpeed更快?原因如下:
ByteCCL(BytePS)高性能异步通讯库。
支持定制化的并行策略,可以将性能优化推到极致。
在支持数据并行、算子切分、流水线并行3种分布式并行策略时,veGiantModel会综合考虑到跨机的带宽,自动调整toplogy的placement。
传送门
veGiantModel现已在GitHub上开源,地址如下:
https://github.com/volcengine/veGiantModel
GitHub上详细介绍了如何使用veGiantModel以及如何使用veGiantModel快速跑起一个GPT的预训练。火山引擎机器学习平台原生支持了veGiantModel,目前平台正在公测中,欢迎大家试用:https://www.volcengine.com/product/ml-platform
点击【阅读原文】立即试用
©THEEND
转载请联系本公众号获得授权
投稿或寻求报道:content@jiqizhixin.com