时政
财经
科技

#DeepSeek-R1-0528

卡尔的AI沃茨
卡尔的AI沃茨
2025-05-30 09:13:36

DeepSeek-R1-0528(R1-V2、新R1)的深度测评来了,代码、3D、物理模拟、设计美学、PPT、幻觉、中文写作都测了边! R1就是基于3月份更新的V3-0324更新的。好消息是现在已经在huggingface开源了、OpenRouter上免费使用,不太需要担心服务器繁忙。 先说说测下来的结论,R1-0528水平确确实实是可以达到Claude3.7,接近Claude4和OpenAI

#DeepSeek-R1-0528#R1-V2#深度测评
karminski-牙医
karminski-牙医
2025-05-30 03:04:53

给大家解析一下 DeepSeek-R1-0528 的官方放出的评测数据。目前 DeepSeek-R1-0528 毫无疑问是开源模型第一了, Qwen3-235B-A22B 在热座上仅座了一个月[苦涩]. 先看图1,我们可以看到编程能力和数学能力都有巨大的提升,基本都是10%左右的提升。这是一个相当猛的结果。而大家这两天放出的测试也能看到这个新版本R1直逼 OpenAI-o3 或者 Gemini-

#DeepSeek-R1-0528#开源模型#Qwen3-235B-A22B
小互
小互
2025-05-29 21:47:36

Deepseek 官方公布了 DeepSeek-R1-0528 细节 ↓🧵 推理能力全面增强: 通过加大后训练算力,模型的思维深度与推理能力显著提升。AIME 2025 测试中准确率从 70% 提升至 87.5%。 幻觉率显著降低: 在摘要、改写、阅读理解等场景下幻觉率下降约 45~50%。输出内容更可靠,事实一致性更高。

#DeepSeek#DeepSeek-R1-0528#推理能力
没有更多了 🤐