易思范

阿里云通义开源首个推理步骤评估标准

产业报道

2025年01月17日

  1月17日消息,阿里云通义开源全新的数学推理过程奖励模型Qwen2.5-Math-PRM,72B及7B尺寸模型性能均大幅超越同类开源过程奖励模型。

  据网经社云计算台(CC.100EC.CN)获悉,在识别推理错误步骤能力上,Qwen2.5-Math-PRM以7B的小尺寸就超越了GPT-4o。同时,通义团队还开源首个步骤级的评估标准 ProcessBench,填补了大模型推理过程错误评估的空白。

+1

来源:网经社

推荐文章