学院举办2025年秋期第六次学术沙龙活动

发布时间:2025-12-29浏览次数:13

20251226日,学院举办第六次学术沙龙活动,范会联教授作《基于LLM的策略梯度算法》学术报告。全体博士教师和2025级硕士研究生参加沙龙活动。

范会联教授对策略梯度算法的基本原理进行了梳理,从强化学习的目标函数、策略参数化表示,到经典REINFORCEA2CPPO等算法的演进逻辑,为在场师生构建了清晰的理论框架。报告重点探讨了大语言模型(LLM)在策略梯度算法中的创新应用,包括利用LLM进行策略表示、价值函数近似等内容。师生围绕LLM与策略梯度融合过程中的样本效率、训练稳定性、奖励设计等问题展开了深入交流。

本次学术沙龙内容丰富、针对性强,既加深了师生对策略梯度算法前沿发展的理解,也促进了不同研究方向之间的交流与协作。

(图/文:卢希|责编:程东东|初审:卢希|复审:谭林莉|终审:朱飞镝)