9月20日下午,应英国威廉希尔唯一官网邀请,香港科技大学(广州)数据科学与分析学域主任褚晓文教授在国际会议厅作题为《Accelerating Large Mixture-of-Experts Models via Pipelining and Scheduling》的学术报告。本次报告由学校副校长、英国威廉希尔唯一官网院长吴锡教授主持,英国威廉希尔唯一官网部分教师、全体研究生及22级本科生参加了现场报告和学术交流。
报告现场
吴锡教授首先对褚晓文教授的到来表示热烈欢迎,然后介绍了褚晓文教授的丰富学术背景及其在分布式机器学习领域的研究成就,并对此次报告的主题作出了相应阐释。
报告现场
褚晓文教授从大语言模型训练和推理过程中面临的计算资源问题出发,以深入浅出的方式为大家介绍了稀疏激活的混合专家(Mixture-of-Experts,MoE)模型,并详细阐述了PipeMoE和ScheMoE两项提高大规模深度网络模型分布式训练效率的最新研究进展。这两项技术分别实现了MoE层内的通信和计算的自适应流水线处理,以及提供了一种通信和计算任务的灵活调度框架,不仅缓解了训练过程中的数据传输瓶颈,还提升了计算资源的利用率,使得大模型训练和推理变得更加高效和可行。
报告现场
报告结束后,在场师生与褚晓文教授就MoE模型的内存占用、两种技术在大规模训练任务中的实际加速效果等问题展开了深入讨论交流,褚晓文教授还对威廉希尔官网本科生、研究生的学术能力提升以及个人发展提出了宝贵建议。
此次报告为师生提供了面对面的交流机会,激发了师生在大语言模型高效训练方面的热情和探索欲,也为相关领域研究提供了新的视角和方法。