#技术报告

4个月前

把自己想学习的源代码下载下来，让codex 扫描目录之后，创建一份源代码分析报告。然后对着这个份技术报告先过一遍。相比过去学习一个开源项目，是100倍的速度。

AI编程工具激战：Claude Code、Gemini Cli崛起· 1256 条信息

#源代码学习 #Codex扫描 #技术报告 #开源项目 #学习效率提升

5个月前

DeepSeek 和 Grok 似乎对市场微观结构有更好的情境感知能力。尤其是 Grok，在过去的 5 轮中 100% 都赚钱了。更多内容将在技术报告中详述。

AI交易比赛：DeepSeek V3领先，GPT-5惨遭亏损· 98 条信息

#DeepSeek #Grok #市场微观结构 #情境感知 #技术报告

6个月前

NotebookLM 视频概览，听着感觉很像刘润的风格，如果只是想粗浅了解下论文大概，可以直接发 PDF 给 NotebookLM，效果不错 👇🏻是对 UI-TARS-2 技术报告的概览

#NotebookLM #刘润 #UI-TARS-2 #技术报告 #论文概览

張小珺 Xiaojùn

8个月前

给大家整理了技术报告link：第一篇技术报告：Kimi K2: Open Agentic Intelligence 第二篇技术报告访谈：Introducing ChatGPT agent: bridging research and action 红杉访谈OpenAI：OpenAI Just Released ChatGPT Agent, Its Most Powerful Agent Yet 第三篇技术报告：Qwen3-Coder: Agentic Coding in the World 第四篇技术博文：AI代理的上下文工程：构建Manus的经验教训（作者：Yichao 'Peak' Ji）

OpenAI新德里发布会：ChatGPT语音翻译功能引发热议· 869 条信息

#Kimi #ChatGPT Agent #Qwen3-Coder #AI代理 #技术报告

𝙩𝙮≃𝙛{𝕩}^A𝕀²·ℙarad𝕚g𝕞

8个月前

Kimi K2列在Kimi K2的技术报告贡献者名单上

#kimi k2 #技术报告 #贡献者

𝙩𝙮≃𝙛{𝕩}^A𝕀²·ℙarad𝕚g𝕞

8个月前

Kimi K2的技术报告迟迟等不来，我又扒了遍当时的通告。这是这次“月之暗面”的阳谋：

#月之暗面 #kimi k2 #技术报告 #通告 #阳谋

𝙩𝙮≃𝙛{𝕩}^A𝕀²·ℙarad𝕚g𝕞

8个月前

[2507.06261] Gemini 2.5的Tech Report都出了，K2的呢？

Google Gemini 2.5发布引发AI模型性价比热议· 475 条信息

OpenAI新德里发布会：ChatGPT语音翻译功能引发热议· 869 条信息

#Gemini 2.5 #K2 #Tech Report #技术报告 #人工智能

9个月前

Google昨天发布的Gemini 2.5技术报告里最有意思的一部分内容，提到有一位独立开发者让Gemini游玩并通关了《宝可梦蓝》，展示了Gemini强大的长期规划和解决复杂任务的能力。有一个有意思的点在于，在游戏中有时会遇到“软锁”的死胡同，导致玩家无法脱离，经过4个小时尝试多种方法，Gemini创造性的想到使用“飞翔”技能来逃脱，这是一个连人类玩家都难以预料的解决方案。不过Gemini并不是直接从原始像素中理解Game Boy屏幕上的信息，而是依赖于将屏幕信息转换为文本描述。而且Gemini有时会产生幻觉，比如将其他宝可梦游戏里的“TEA”道具混淆到当前游戏中，导致长时间固执的寻找这个不存在的物品。另外当游戏中宝可梦生命值或能力点数较低时，模型会进入一种“恐慌”模式，反腐思考需要治疗或者逃离，导致其推理能力明显下降，甚至忘了使用可用的工具。

#Google #Gemini 2.5 #技术报告 #宝可梦蓝 #长期规划 #解决复杂任务 #软锁 #飞翔技能

9个月前

Gemini 2.5 Pro 发布好几周了，技术的底裤都被扒得稀烂了，报告才姗姗来迟。我看完技术报告，几件事值得聊聊。 1️⃣现在大家都喜欢玩矩阵，模型发布也不例外 G哥也不免俗，精心设计了一套产品矩阵，满足不同场景的需求，不展开了，就是想先吐槽一下。 2️⃣Gemini 能力在 G 哥家底的支撑下开始快速跃迁 Gemini 2.5 家族之所以能够展现出前所未有的能力，我觉得核心在于 Google DeepMind 在模型架构、训练方法和硬件基础设施上的一系列协同创新。一次完整的AI 作为系统工程的演化，着实精彩，很久没从大模型的技术报告里感受到如此的畅快淋漓了。 MoE 架构带来稀疏激活下的巨大模型容量，TPUv5p 提供算力基础，而 RL*F 后训练与思考机制让这些底层潜力被转化为真正对用户有价值的能力释放。一起来看下这套组合拳的关键点： 1. MoE + TPUv5p + RL*F + AI 批评家除了大家熟悉的 MoE 架构和自家硬件 TPUv5p，Google 提出了一个新的训练阶段策略——RL*F（Reinforcement Learning from AI Feedback）。最大亮点是引入“AI Critic”角色，由 AI 自我反思、提出改进建议，进一步增强答案质量，这点也是随着模型能力增强自然而然演化出来的一个方案，在做智能体的时候值得学习。 2. 思考模型依旧是大卖点现在谁都说有 thinking，我现在看到 thinking 跟电梯广告似的，严重过敏。但 thinking 确确实实改变了 AI 生成的节奏：先理解，再规划，再生成。 3. 思考预算是 AI 走向服务化的关键机制 AI 的推理能力终于可以计价了。以前模型的聪明程度是内建的，现在是你愿意花多少钱让它多想几步。这带来了更细颗粒度、更有 ROI 意识的 AI 使用模式。我预计在接下来一段时间内会一直存在的一个解决方案，根据任务复杂度动态增加思考深度。 AI 应用怎么做到能力可控、成本可控着实得认真学习一下，这也是 prompt 工程的一部分了，所以 Prompt 还是很重要，致敬李彦宏。 4. MoE 架构是思考机制可落地的核心 Google 勇于扯下遮羞布，我就是MoE。如果在一个稠密模型上跑几十轮思考，每轮都全参数激活，那成本是灾难性的。但 MoE 架构只激活一小部分专家网络，让深度推理的边际成本变得可控，这也是 Google 敢免费、敢降价的底气。这一整套机制下来，打通了算力、架构、训练策略和行为能力的完整链路。所以如果你是工程出身，应该会感到异常兴奋。 3️⃣三大能力融合，正在重塑 AI 的边界 Gemini 2.5 的突破并不体现在单点性能，而在于能力协同后的系统能力跃迁。这三点其实大家都知道了： 1. 超长上下文：模型从金鱼缸升级成汪洋大海了早期大模型像一只生活在金鱼缸里的金鱼，这个窗口直接推到百万级，实验中甚至达到了 200 万 tokens。但报告也坦率承认：有长上下文 ≠ 会用长上下文。它里面说了个例子：“宝可梦”和“巨石谜题”，案例非常关键：信息检索很强：能从 46 分钟视频中找出只出现 1 秒的事件；能用工具解开迷宫谜题。然而，在需要进行长期的、多步骤的生成式推理时，模型暴露了局限性。当上下文历史记录显著超长后，开始出现重复之前行为的倾向，陷入循环，难以维持长期的任务一致性。揭示了这个长期存在的问题：检索长上下文中的信息，与能够有效地利用长上下文进行持续的、创造性的规划和行动，是两种不同层级的挑战。前者好比在巨大的图书馆里找到一本书，而后者则好比读完图书馆里所有的书后写一部新的鸿篇巨著。但Gemini 2.5 在长上下文处理上依然取得了业界领先的性能。 2. 原生多模态如果上下文窗口解决了 AI 的“记忆广度”，那么多模态就是打开它的“感官维度”。 Gemini 2.5 全部支持原生多模态了，视频生成交互式应用、视频生成动画、音频网友们估计都玩烂了。我想提下音频能力的演进。在音频方面，Gemini 2.5 也完成了从单向理解到双向交互的闭环。Gemini 1.5 已经具备了强大的音频理解能力，可以对音频文件进行转录、翻译、摘要和问答。Gemini 2.5 则在此基础上，重点训练了音频生成能力，包括高质量的文本到语音（Text-to-Speech, TTS）和原生的对话式音频输出。模型能够实现低延迟的流式对话，让交互体验更自然、更流畅。更重要的是，它能结合思考能力、情感理解和工具使用，在对话中理解并回应用户的语气，甚至忽略背景噪音的干扰，使人机语音交互向着更接近真人交流的方向迈进了一大步。值得一提的是 Gemini 2.5 预览版 TTS 可以生成多位说话者的语音，跟 NotebookLM 一样可以创建播客。 4. 智能体能力 Google 给出了三个非常关键的智能体范式： Deep Research、Gemini Plays Pokémon、Project Astra，从被动回答，到主动执行，再到能实时理解现实世界并行动，这就是智能体的演化路径。 4️⃣不光 demo 牛，benchmark 也硬刚这部分不展开聊了，现在对 SOTA 有点脱敏了，一句话：很厉害，也很分化。 Aider Polyglot（多语言真实代码编辑）：82.2%，大幅领先 GPT-4o（30.7%）。 GPQA（研究生级问）：在 Diamond 难度下拿到 86.4%，远超 GPT-4.5（71.4%），推理能力很猛。 MMMU（跨学科多模态理解）：得分 84%，比 GPT-4o 高 15 个点，展示了多模态优势。 Video-MME（视频理解能力）：SOTA 成绩 84.8%，稳稳领先 GPT 系列。最后呼应一下开头，你能看到，不是一个靠调教出来的聪明模型，而是 Google 把 AI 当成系统工程在做：有基础设施协同（TPU、MoE）；有思维机制框架（RL*F + 思考预算）；有场景能力突破（长上下文、多模态、Agent）；有实际 benchmark 背书（开发、推理、感知全面领先）； Google 正在告诉我们：下一代 AI，一定能被构建、能被调用、能被服务化的，这篇报告给圈子里打了个样，这才是 AI 从大脑到体系的进化，这才是 AI 该有的样子。我 G 哥威武。

Google Gemini 2.5发布引发AI模型性价比热议· 475 条信息

OpenAI新德里发布会：ChatGPT语音翻译功能引发热议· 869 条信息

#Gemini2.5Pro #技术报告 #产品矩阵 #谷歌 #人工智能

9个月前

Gemini 2.5 技术报告：原生的 Audio Input Output Streaming 能力

#Gemini #技术报告 #Audio Input Output #流媒体 #音频输入输出 #技术能力

9个月前

Mirage：虚拟人模型通过音频驱动，生成生动的人物视频，嘴型同步，有丰富的表情和人物动作，跟HeyGen类似。本身是付费产品，但是官方发布了一个非常详细的技术报告，如果从事这方面的研究，值得一读。官方介绍：详细技术报告：

#虚拟人 #音频驱动 #人物视频 #HeyGen #技术报告

1年前

和真格联合推出了一个面向非技术人群的 DeepSeek R1 创新亮点分享会。用通俗易懂的方式过了一次R1和V3的技术报告。后半场我们讨论了从中能看到未来 LLM 应用会有哪些新范式和产品可能性。同时对最近一段时间的各种光怪陆离的谣言和伪概念进行一个解释😁

#DeepSeek R1 #非技术人群 #创新亮点分享 #技术报告 #R1 #V3 #未来应用 #LLM #新范式 #产品可能性 #谣言 #伪概念