海外爆料2025-05-30 09:06:47🔥矢板明夫:“只有当潮水退去时,才能知道谁在裸泳”。4个月过去了。我刚看到一份统计资料,发现Deepseek在全球范围內已经无人问津,而ChatGPT的用户则增长到了8亿。之前信誓旦旦说Deepseek要挑战美国AI的人,如今也都消失得无影无踪。据说Deepseek除了准确度低之外,只要涉及政治敏感话题就拒绝回答…
karminski-牙医2025-05-30 05:23:18解读下这次 DeepSeek 顺带发布的 DeepSeek-R1-0528-Distilled-Qwen3-8B 的数据: 其中 AIME'24 的确是领先的, 但是其他的数据不是领先的,所以不要期待太多。 可以得出的结论是, 用这个模型替代原本的 Qwen3-8B 非常不错, 能力有不小的提升. 但是试图替代 Qwen3-235B-A22B 是不合理的. 仅从知识量来讲, 二者激活参数差距
Frank2025-05-30 00:29:57deepseek又提升了不少,想起之前刷ImageNet的日子,用剪纸和各种channel wise的操作将ResNet砍掉一大半的参数可以不掉精度,但剪得越多训练时需要更仔细的去调参,模型收敛速度也会显著慢很多,小模型压榨性能真的很不容易
小互2025-05-29 21:47:36Deepseek 官方公布了 DeepSeek-R1-0528 细节 ↓🧵 推理能力全面增强: 通过加大后训练算力,模型的思维深度与推理能力显著提升。AIME 2025 测试中准确率从 70% 提升至 87.5%。 幻觉率显著降低: 在摘要、改写、阅读理解等场景下幻觉率下降约 45~50%。输出内容更可靠,事实一致性更高。