ShanghaiTech University Knowledge Management System
What Are Step-Level Reward Models Rewarding? Counterintuitive Findings from MCTS-Boosted Mathematical Reasoning | |
2025-02 | |
会议录名称 | AAAI 2025 |
发表状态 | 正式接收 |
URL | 查看原文 |
文献类型 | 会议论文 |
条目标识符 | https://kms.shanghaitech.edu.cn/handle/2MSLDSTB/493982 |
专题 | 信息科学与技术学院_硕士生 |
共同第一作者 | Chen, Zui |
通讯作者 | Liu, Zitao |
作者单位 | 1.Zhejiang Univ, Hangzhou, Peoples R China 2.ShanghaiTech Univ, Shanghai, Peoples R China 3.TAL Educ Grp, Beijing, Peoples R China 4.Univ Rochester, Rochester, NY, USA 5.Jinan Univ, Guangzhou, Peoples R China |
推荐引用方式 GB/T 7714 | Ma, Yiran,Chen, Zui,Liu, Tianqiao,et al. What Are Step-Level Reward Models Rewarding? Counterintuitive Findings from MCTS-Boosted Mathematical Reasoning[C],2025. |
条目包含的文件 | ||||||
文件名称/大小 | 文献类型 | 版本类型 | 开放类型 | 使用许可 |
修改评论
除非特别说明,本系统中所有内容都受版权保护,并保留所有权利。