What Are Step-Level Reward Models Rewarding? Counterintuitive Findings from MCTS-Boosted Mathematical Reasoning
2025-02
会议录名称AAAI 2025
发表状态正式接收
URL查看原文
文献类型会议论文
条目标识符https://kms.shanghaitech.edu.cn/handle/2MSLDSTB/493982
专题信息科学与技术学院_硕士生
共同第一作者Chen, Zui
通讯作者Liu, Zitao
作者单位
1.Zhejiang Univ, Hangzhou, Peoples R China
2.ShanghaiTech Univ, Shanghai, Peoples R China
3.TAL Educ Grp, Beijing, Peoples R China
4.Univ Rochester, Rochester, NY, USA
5.Jinan Univ, Guangzhou, Peoples R China
推荐引用方式
GB/T 7714
Ma, Yiran,Chen, Zui,Liu, Tianqiao,et al. What Are Step-Level Reward Models Rewarding? Counterintuitive Findings from MCTS-Boosted Mathematical Reasoning[C],2025.
条目包含的文件
文件名称/大小 文献类型 版本类型 开放类型 使用许可
个性服务
查看访问统计
谷歌学术
谷歌学术中相似的文章
[Ma, Yiran]的文章
[Chen, Zui]的文章
[Liu, Tianqiao]的文章
百度学术
百度学术中相似的文章
[Ma, Yiran]的文章
[Chen, Zui]的文章
[Liu, Tianqiao]的文章
必应学术
必应学术中相似的文章
[Ma, Yiran]的文章
[Chen, Zui]的文章
[Liu, Tianqiao]的文章
相关权益政策
暂无数据
收藏/分享
所有评论 (0)
暂无评论
 

除非特别说明,本系统中所有内容都受版权保护,并保留所有权利。