学院举办2025年秋期第六次学术沙龙活动

学术动态

发布时间：2025-12-29 发布者：admin 访问次数：103

2025年12月26日，学院举办第六次学术沙龙活动，范会联教授作《基于LLM的策略梯度算法》学术报告。全体博士教师和2025级硕士研究生参加沙龙活动。

范会联教授对策略梯度算法的基本原理进行了梳理，从强化学习的目标函数、策略参数化表示，到经典REINFORCE、A2C、PPO等算法的演进逻辑，为在场师生构建了清晰的理论框架。报告重点探讨了大语言模型（LLM）在策略梯度算法中的创新应用，包括利用LLM进行策略表示、价值函数近似等内容。师生围绕LLM与策略梯度融合过程中的样本效率、训练稳定性、奖励设计等问题展开了深入交流。

本次学术沙龙内容丰富、针对性强，既加深了师生对策略梯度算法前沿发展的理解，也促进了不同研究方向之间的交流与协作。

（图/文：卢希|责编：程东东|初审：卢希|复审：谭林莉|终审：朱飞镝）