中国电信天翼云完成首个国产GPU万卡训练!4000亿参数大模型
快科技 9月20日消息,中国电信中国电信天翼云完成首个国产GPU万卡训练!4000亿参数大模型宣(xuān)布,天翼云自研的国内首个单集群万卡国产化全(quán)功能预训练云服务平台,已经正(zhèng)式发布上线,基于华为昇腾芯片,并完成了万卡规模Llama3.1-405B大模型训练。
Llama3.1-405B作为4000亿参数规模 的大模型,在息壤训推服务平台的支持下,经(jīng)过多轮(lún)优化,MFU(算力利(lì)用率)达(dá)到国内领先水平。
另外,700亿参数(shù)大模型Llama2-70B在万卡规模下完成训练,MFU也处于业界领先水平。
据悉,天翼云的这套(tào)平台具(jù)备万卡纳管和(hé)并行训练能力(lì),基于(yú)HPFS PB级并(bìng)行文(wén)件系统、CTCCL RDMA高速(sù)卡(kǎ)间互联技术、Gang策略与拓扑感知的智算容器(qì)调(diào)度,以及慧聚自研分布式训练框架TeleFormers和平(píng)台(tái),实(shí)现万卡资源纳管、万卡规模并(bìng)行训练。
其(qí)中,天翼云自(zì)研了AI框架Teleformers,对算子、通信、数据处理进行优(yōu)化(huà),还有并行策略的自适应调整,显著提 升了大模型训练中国电信天翼云完成首个国产GPU万卡训练!4000亿参数大模型(liàn)的训练(liàn)效率。
在目前业内最大参数规模开源单(dān)体稠密模型Llama3.1-405B大模型训练测(cè)试中,性能表现达到国际同等水平。
算子优化方面,针对昇腾(téng)芯片的特性,在网络结构层面对诸多(duō)高频算子进行了定制(zhì)化改造,构建了(le)高性能算子集。
比 如matmul算子,利用昇腾芯片的计算亲和性,将算子输(shū)入padding到特定的维度,大幅提升执行效率,从而明显缩短了训练时间。
数据(jù)处理和流水线方面,通过(guò)设置(zhì)合(hé)理的数据(jù)分片策(cè)略和HPFS条带化优化,结合数(shù)据预取与数据下沉技术,大幅提 升数据流的处理(lǐ)效率和稳定性;对预处理后的数据(jù)集进行了二次分片并提供就近缓存能力,减少GPU空闲时(shí)间。
自(zì)适应并行策略方面,基于对3D并行中(zhōng)各类计算单元的(de)分析,天翼云设(shè)计了多(duō)种自适应的3D并行策(cè)略,依据模型规模和硬件资源(yuán)的不同可以(yǐ)自动选择合(hé)适的并行策略,充分利用计(jì)算资(zī)源和显存资(zī)源,缩短模型训练(liàn)中每轮的(de)迭(dié)代时间(jiān)。
天翼云(yún)国产化万卡智算中心(xīn)还有多项技术突破——
天翼云息(xī)壤训练服务平台基于软硬件协同(tóng)设计,提供全链(liàn)路故障监控、基于主动感知的全(quán)链路(lù)故障监控和定位(wèi)、CheckPoint秒级多级高速存(cún)储系统(tǒng)、容错优雅调度和模型编(biān)译缓存等(děng)系统,将万卡规(guī)模故障发现(xiàn)和(hé)解决问题缩短到业内前沿的分钟级,大幅提升有效训练时间。
自动断点续训系统:
建设丰富的故障库,基于(yú)此构建了多维故障感知(zhī)系统,能够快(kuài)速主动感知相关故(gù)障事件和潜在(zài)的故障 风险;
通过精(jīng)准的故障隔离和调(diào)度手段,快速隔离处理故障节点并重新调度新节点(diǎn)接手任(rèn)务继续训练,实现无人干预式断点续训,有(yǒu)效减少GPU闲置时间。
高速多级CheckPoint系统(tǒng):
天翼云(yún)设计基于多(duō)级存储的高速CheckPoint系(xì)统,通过(guò)两阶段异步存储,实现高速写入内存,并最终异步写入远端系统(tǒng);
针对断点恢(huī)复场(chǎng)景,提供进(jìn)程级故障(zhàng)原地快(kuài)恢和远端快速(sù)恢复能力,最终实现对CheckPoint的(de)秒(miǎo)级(jí)读写能力,大幅降低断点恢复时间、提升训练效率。
全链路检测工具链:
天翼云(yún)开发了全链路故障监控工具链,能(néng)够基于主动感知实现全链路的故障(zhàng)监控和定位。
该工具链可以主动发(fā)现(xiàn)设备故障,并降低训练中断的(de)频(pín)次,确保训(xùn)练过程的(de)连续(xù)性和稳定性。
【本(běn)文结束(shù)】如需转载请务必注明(míng)出(chū)处:快科技
责任编辑(jí):上方文(wén)Q
未经允许不得转载:战力电影网-最新电视剧在线观看-高清电影-全网热播动漫动画片 中国电信天翼云完成首个国产GPU万卡训练!4000亿参数大模型
最新评论
非常不错
测试评论
是吗
真的吗
哇,还是漂亮呢,如果这留言板做的再文艺一些就好了
感觉真的不错啊
妹子好漂亮。。。。。。
呵呵,可以好好意淫了