karminski-牙医2025-05-30 03:04:53给大家解析一下 DeepSeek-R1-0528 的官方放出的评测数据。目前 DeepSeek-R1-0528 毫无疑问是开源模型第一了, Qwen3-235B-A22B 在热座上仅座了一个月[苦涩]. 先看图1,我们可以看到编程能力和数学能力都有巨大的提升,基本都是10%左右的提升。这是一个相当猛的结果。而大家这两天放出的测试也能看到这个新版本R1直逼 OpenAI-o3 或者 Gemini-#DeepSeek-R1-0528#开源模型#Qwen3-235B-A22B
勃勃OC2025-05-20 09:18:25微软和 xAI 刚刚宣布:Grok 3 现已在 Azure AI Foundry 上线。 •Grok 3 具备先进的推理、编程和视觉能力 •由 xAI 构建,并依托微软安全的云平台 •免费预览现已上线,为期两周 同时也可在 GitHub Models 上获取。#微软#XAI#推理能力
benn4042025-03-25 15:32:53DeepSeek 悄悄更新的 v3 模型权重,编程能力出乎意外的好强……在我测试的几个例子中,基本上都赶上 claude 3.5 sonnet了。 在 deepseek 官网 就能直接使用:关掉 R1,输入的 prompt 可以是“请用 html、css、js 实现一个 xxx”。#DeepSeek#V3模型#编程能力
小互2025-02-12 15:31:26OpenAI 新论文:使用大型推理模型进行竞赛编程 强化学习如何提升大语言模型在编程和推理任务中的表现 核心研究发现 1️⃣ 强化学习可以显著提升 AI 编程能力! 2️⃣ o1-ioi 通过手工优化策略,在 2024 IOI 竞赛中取得 金牌水平。 3️⃣ o3(新一代 AI)完全不依赖手工优化,却比 o1-ioi 还强! 4️⃣ o3 在 CodeForces 评分 达到 2724#OpenAI#大型推理模型#强化学习
StLi2025-02-01 10:36:33测试了OpenAI新发布的o3-mini,其编程能力之强真的是可以用“恐怖”来形容。不多说了,看视频吧。 prompt:生成一个swiftUI视图,其中包括一个组件,组件实现了一个圆球在一个超立方体中弹跳。 如果是用js、python来做还没有那么吓人。 #OpenAI#o3-mini#编程能力