#推理能力

4个月前

既然谷歌AI推理能力强，所以试试这种类似文本Prompt的生图提示词。

谷歌Deep Research：AI操作系统雏形？· 145 条信息

#谷歌AI #推理能力 #文本Prompt #生图 #提示词

6个月前

牛P了 Luma AI 推出 Ray3：世界上首个具备“推理能力”的视频模型推理能力使 Ray3 不仅能够理解复杂指令、以视觉和语言思维进行创作，还能并评估自己的生成结果。 -可生成专业级 HDR 视频的 AI，支持 10、12、16-bit 高动态范围，色彩丰富。 -支持物理仿真、复杂场景、群体动画、运动模糊、写实光照等高阶功能。 - 可以理解视觉注释，如图像上的绘制和涂鸦，控制镜头、运动、构图等，不需要文字提示。 - 拥有 Hi-Fi diffusion pass 技术，支持从草图快速提升至 4K HDR 高质量视频。 - 可以将普通 SDR 视频转换为 HDR，并输出 EXR 格式，便于后期制作。

AI视频井喷：Midjourney领跑，多模态混战· 337 条信息

#Luma AI #Ray3 #视频模型 #推理能力 #HDR视频

7个月前

GPT-5模型的各种跑分都是按reasoning_effort=high来的，而ChatGPT里的这个GPT-5作为一个自动路由模型，很多时候都不会触发推理（于是连9.8和9.11哪个大都回答不好），可能这就是落差如此大的原因？（GPT-5 Thinking就好很多）

OpenAI新德里发布会：ChatGPT语音翻译功能引发热议· 869 条信息

#GPT-5模型 #reasoning_effort #ChatGPT #自动路由模型 #推理能力

7个月前

GPT-5模型的各种跑分都是按reasoning_effort=high来的，而ChatGPT里的这个GPT-5很多时候都不会触发推理（于是连9.8和9.11哪个大都回答不好），可能这就是落差如此大的原因？（GPT-5 Thinking就好很多）

AI高考数学测试：O3意外落后，Gemini夺冠引发热议· 67 条信息

#GPT-5 #推理能力 #性能差异 #reasoning_effort #ChatGPT

8个月前

用Gemini 2.5 Flash言出法随式阅读源代码。 Gemini 2.5 Pro 强在推理，Flash 强在速度：3-5 秒就把所有答案甩给你。读代码？Flash 已经绰绰有余，问题刚脱口，解释就到位。速度为王。

Google Gemini 2.5发布引发AI模型性价比热议· 475 条信息

OpenAI新德里发布会：ChatGPT语音翻译功能引发热议· 869 条信息

#Gemini 2.5 Flash #源代码阅读 #速度快 #推理能力 #AI

歸藏(guizang.ai)

9个月前

看了一下机器之心的高考数学 AI 模型测试。国内模型在过去一年的推理能力进步很真的挺大的，基本全部都能考上 130 多分。豆包、DeepSeek的选择题和解答题得分都非常高，基本上超过了大多数人的水平。而且豆包在 APP 端和 API 端的分数都很高。 Gemini 确实强，在所有客观题的测试中排第一。从 o3 的基准测试来看即使没有像国产模型的高考数学数据，也不应该这么低，API 都这么低的分真有你的 Open AI。所有模型在几何题上都有问题。说明现在所谓的多模态还远不够，模型没有真正理解空间关系。

AI高考数学测试：O3意外落后，Gemini夺冠引发热议· 67 条信息

#高考 #人工智能 #数学 #AI测试 #机器之心 #豆包 #DeepSeek #Gemini #推理能力 #模型测试

9个月前

R1更新新版本DeepSeek-R1-0528，看似是个小版本，实际“在LiveCodeBench上几乎与OpenAI o3-high相当！” 难倒o3、Gemini 2.5 pro、Claude 4等一众顶流大模型的数字新难题“9.9-9.11=？”也能做对了。广大网友已经迅速整理出了更新亮点： 1.能够像Google模型一样进行深入推理 2.改进了写作任务——更自然、格式更好 3，独特的推理风格——快速且深思熟虑 4.长时间思考——每个任务最长能思考30-60分钟

深度学习模型升级引发AI能力大跃进，行业迎新变革· 143 条信息

#DeepSeek-R1-0528 #LiveCodeBench #OpenAI #o3-high #顶流大模型 #数字新难题 #Google模型 #推理能力 #写作任务

10个月前

Deepseek 官方公布了 DeepSeek-R1-0528 细节 ↓🧵 推理能力全面增强：通过加大后训练算力，模型的思维深度与推理能力显著提升。AIME 2025 测试中准确率从 70% 提升至 87.5%。幻觉率显著降低：在摘要、改写、阅读理解等场景下幻觉率下降约 45~50%。输出内容更可靠，事实一致性更高。

深度学习模型升级引发AI能力大跃进，行业迎新变革· 143 条信息

#DeepSeek #DeepSeek-R1-0528 #推理能力 #AIME 2025 #幻觉率

澎湃新闻-10%公司

10个月前

DeepSeek官宣R1升级：提升思维深度与推理能力，整体表现已接近国际顶尖模型

深度学习模型升级引发AI能力大跃进，行业迎新变革· 143 条信息

#DeepSeek #R1升级 #思维深度 #推理能力 #国际顶尖模型

10个月前

微软和 xAI 刚刚宣布：Grok 3 现已在 Azure AI Foundry 上线。 •Grok 3 具备先进的推理、编程和视觉能力 •由 xAI 构建，并依托微软安全的云平台 •免费预览现已上线，为期两周同时也可在 GitHub Models 上获取。

马斯克Grok再升级，4代直播发布引爆AI· 41 条信息

#微软 #XAI #Grok 3 #Azure AI Foundry #推理能力 #编程能力 #视觉能力 #云平台 #GitHub Models

李老师不是你老师

11个月前

4月5日 Meta发布了其新一代开源大语言模型Liama4，其拥有超过4000亿参数，Meta宣称该模型是同类中最好的多模态模型（可以处理图像输入输出），在参数量更少运行门槛更低的情况下，编程和推理能力上和DeepSeek V3相当。并且该模型完全免费开源，用户可以从Liama官网下载并部署在本地。

#Meta #开源 #大语言模型 #Liama4 #多模态模型 #DeepSeek v3 #免费 #推理能力

11个月前

OpenAI 已宣布计划在未来几个月内发布一款新的开源权重语言模型，具有增强的推理能力，这是自 GPT-2 以来的首次此类发布。该举措旨在通过与开发者、研究人员和社区互动，促进 AI 发展的开放性，并收集反馈。此举预计将推动 AI 领域的创新和社区参与。

#OpenAI #开源语言模型 #GPT-2 #推理能力 #AI发展 #社区参与

1年前

xAI 的新大型语言模型 Grok 3 发布 Grok 3具备推理能力，以及一个Grok-mini的小模型在 LMArena 上的 ELO 评分达到 1400，排名第一 AIME 24 —— 52% [推理后 96%] GPQA —— 75% [推理后 85%] 编程（LiveCodeBench）—— 57% [推理后 80%] 此外，在最新的数学竞赛 AIME 2025 中取得了 93% 的成绩，击败了 o3-mini-high。

#XAI #大型语言模型 #Grok 3 #Grok-mini #LMArena #ELO评分 #推理能力 #AIME 24 #GPQA #编程 #LiveCodeBench #数学竞赛 #AIME 2025

环球网-环球时报

1年前

马斯克称将发布“地球上最聪明AI”，最大特点是引入“思维链”推理能力

比原计划推迟了数月之后，美国亿万富豪埃隆·马斯克宣布，旗下的人工智能初创公司xAI将于美国当地时间2月17日晚上发布最新版Grok 3聊天机器人，他将Grok 3描述为“地球上最聪明的人工智能（AI）”，这也引起外界对Grok 3的高度关注。

马斯克Grok再升级，4代直播发布引爆AI· 41 条信息

#马斯克 #AI #思维链 #推理能力 #科技创新