时政

财经

科技

#DeepSeek-R1-0528

卡尔的AI沃茨

2025-05-30 09:13:36

DeepSeek-R1-0528（R1-V2、新R1）的深度测评来了，代码、3D、物理模拟、设计美学、PPT、幻觉、中文写作都测了边！ R1就是基于3月份更新的V3-0324更新的。好消息是现在已经在huggingface开源了、OpenRouter上免费使用，不太需要担心服务器繁忙。先说说测下来的结论，R1-0528水平确确实实是可以达到Claude3.7，接近Claude4和OpenAI

#DeepSeek-R1-0528 #R1-V2 #深度测评

karminski-牙医

2025-05-30 03:04:53

给大家解析一下 DeepSeek-R1-0528 的官方放出的评测数据。目前 DeepSeek-R1-0528 毫无疑问是开源模型第一了, Qwen3-235B-A22B 在热座上仅座了一个月[苦涩]. 先看图1，我们可以看到编程能力和数学能力都有巨大的提升，基本都是10%左右的提升。这是一个相当猛的结果。而大家这两天放出的测试也能看到这个新版本R1直逼 OpenAI-o3 或者 Gemini-

#DeepSeek-R1-0528 #开源模型 #Qwen3-235B-A22B

2025-05-29 21:47:36

Deepseek 官方公布了 DeepSeek-R1-0528 细节 ↓🧵 推理能力全面增强：通过加大后训练算力，模型的思维深度与推理能力显著提升。AIME 2025 测试中准确率从 70% 提升至 87.5%。幻觉率显著降低：在摘要、改写、阅读理解等场景下幻觉率下降约 45~50%。输出内容更可靠，事实一致性更高。

#DeepSeek #DeepSeek-R1-0528 #推理能力

没有更多了 🤐