阿里云通义开源首个推理步骤评估标准_易思范-【电商汇】电商行业观察产品导购行情

首页 产业报道 正文: 阿里云通义开源首个推理步骤评估标准; 产业报道

2025年01月17日

点赞; 　　1月17日消息，阿里云通义开源全新的数学推理过程奖励模型Qwen2.5-Math-PRM，72B及7B尺寸模型性能均大幅超越同类开源过程奖励模型。

　　据网经社云计算台(CC.100EC.CN)获悉，在识别推理错误步骤能力上，Qwen2.5-Math-PRM以7B的小尺寸就超越了GPT-4o。同时，通义团队还开源首个步骤级的评估标准 ProcessBench，填补了大模型推理过程错误评估的空白。

+1; 来源：网经社

阿里云通义开源首个推理步骤评估标准