#自验证训练框架

外汇交易员

3个月前

DeepSeek推出新型数学推理模型DeepSeekMath-V2，采用可自我验证的训练框架。模型基于DeepSeek-V3.2-Exp-Base构建，通过LLM验证器自动审查生成的数学证明，并利用高难度样本持续优化性能。在IMO 2025和CMO 2024中均达到金牌水平，Putnam 2024获118/120分。团队表示，该成果验证了自验证推理路径的可行性，为构建可靠数学智能系统提供新方向。

#DeepSeekMath-V2 #数学推理模型 #自验证训练框架 #IMO金牌 #数学智能系统