网站首页

当前位置: 网站首页 / 学院新闻 / 正文

北京大学崔斌教授为我校师生作学术报告

发布时间: 2024-12-16      点击量: 

12月10日下午,北京大学崔斌教授应邀在线为我校师生作了题为《Galvatron:大模型的高效自动并行分布式训练》的学术报告。报告会由计算机学院院长李亚峰教授主持。

报告中,崔斌教授介绍了目前基于Transformer的大规模预训练模型是最典型的大模型之一,然而以Transformer作为核心的基础架构,这类稠密大模型拥有百亿甚至万亿规模的参数量及海量训练数据对现有系统带来了严峻的挑战。针对大模型的高效自动并行面临多样性、复杂性和实用性的难题,介绍了课题组自主研发的面向大模型的高效自动并行分布式训练框架--Galvatron。首先剖析了目前“大模型”发展情况和存在的问题,然后重点介绍了Galvatron面向大模型自动化并行分布式训练的探索和Galvatron的系统特点和优势。最后,对大模型自动并行分布式训练的发展方向进行了展望,并提出硬件环境和模型负载两个层面的挑战。Galvatron系统已在GitHub开源https://github.com/PKU-DAIR//Hetu-Galvatron。在提问环节,崔斌与师生就相关问题进行了探讨和交流。

计算机学院、数学与信息科学学院、物理与光电技术学院、机械工程学院和电子电气工程学院的科研副院长和师生120余人在高新校区甘棠厅聆听了报告。(科研管理处、计算机学院 文/李会莉 审核/王晓玲、李亚峰)


上一条:我院赴扶风县开展电商企业帮扶与校企合作交流活动

下一条:计算机学院开展“四查一找”专项检查工作

关闭