#小模型

日月小楚｜Building AI Agents

4个月前

比起经常“逆天”，“颠覆”的大模型小而专才是我的最爱刚训练了一个针对推特分析的小模型结果超过claude 4.5 和gpt 5 关键是我的小破GPU也能跑的贼溜

MiniMax M1发布：开源长上下文推理模型引发AI领域震动· 27 条信息

#小模型 #推特分析 #GPU #Claude 4.5 #GPT 5

4个月前

Claude Haiku 4.5 刚发（小模型），但实力一点不“迷你”。性能≈五个月前的旗舰 Sonnet 4 速度翻倍（体感就是同样任务等一半时间）价格更便宜（输入 $1/百万 tokens，输出 $5/百万 tokens）有些场景甚至反超 Sonnet 4 特点： 1）性能不“迷你” 编程：Agentic coding（SWE-bench）73.3%、Terminal coding 41.0%，几乎和 Sonnet 4（72.7%、36.4%）打平。数学：Python 工具开着 96.3%，关工具 80.7%，小模型里很能打。 Computer Use（电脑操作）：OSWorld 50.7%，直接超 Sonnet 4 的 42.2%。这块确实有点惊喜。 2）速度真的快官方说 more than twice the speed。实际感觉：Claude Code 写代码、跑任务，等待时间直接砍半。如果你做 API 应用，延迟下降的价值，很多时候比省钱更关键。 3）更省钱、更好上手价位：对比 Sonnet 4，整体便宜三分之一。输入：$1 / 1M tokens 输出：$5 / 1M tokens 接入渠道：Claude API、Amazon Bedrock、Google Cloud Vertex AI、Claude Code、网页端 / App……基本能用 Claude 的地方都能切换 Haiku 4.5。模型名：claude-haiku-4-5 4）安全性更稳 Haiku 4.5 被官方评为目前最安全的 Claude 系列模型之一：自动对齐评估里，误对齐行为比例更低（比 Sonnet 4.5、Opus 4.1 还低）。 ASL-2 分级（CBRN 风险评估表现好）；而 Sonnet 4.5 / Opus 4.1 是更严格的 ASL-3。适合谁？高频调用 / 算力敏感：比如代码助手、数据处理、对话式业务逻辑，想要更低成本 + 更低延迟。需要“电脑操作”能力的自动化工作流：浏览器/系统级任务编排更稳了。团队大规模接入：同预算撑起更多调用量。一句话总结五个月前，Claude Sonnet 4 是最先进的型号。如今，Claude Haiku 4.5 提供类似的编码性能，但价格仅为其三分之一，速度却提升了一倍多。

AI编程工具激战：Claude Code、Gemini Cli崛起· 1256 条信息

#Claude Haiku 4.5 #小模型 #性能提升 #速度翻倍 #低成本

5个月前

目前个人测试中文效果最好的端到端文档识别小模型是腾讯的 POINTS-Reader（比小红书的dots.ocr 还要好一些）。做了如下小小的工作： 1. 合并了官方的PR到sglang 0.5.3 版本，可以高效推理。 2. 基于TRL的模型训练代码，可以进行训练。训练只需要图片和对应的markdown文本。

深度学习模型升级引发AI能力大跃进，行业迎新变革· 143 条信息

#腾讯 #POINTS-Reader #文档识别 #小模型 #sglang

5个月前

小模型不是 Agentic AI 的未来，小模型只配给 Agent 当工具现阶段 Agent 的主要问题不是成本过高，而是智能不足，所以做不好任务，所以需要浪费很多 Token。不能拿小模型在特定环境特定任务 RL（强化学习）后的结果来当证据，这不代表其在真实任务中的能力，这就是为什么一堆模型靠训练测试集刷很高分，但是实际一用很垃圾的原因。真实世界的任务是很复杂的，用户的请求总是千奇百怪，Agent 的核心能力是能充分理解用户的需求，去规划去调用合适的工具收集上下文完成任务。这样的核心能力连大模型都做不好，更别说现在的小模型，再怎么微调也无法提升 Agentic 能力。但不是说小模型没用，它作为 Agent 的工具是挺好的，可以低成本高效的完成一些特定任务。举个例子来说你要做一个翻译的智能体，你可以用 Claude 4 负责任务的规划拆分，去调用工具，但具体翻译文本，可以用一个开源的小模型帮你翻译。

#Agentic AI #小模型 #大模型 #任务规划 #智能不足

7个月前

利用好LLM 的prefix特性，用小模型先回复，然后大模型续上，LLM 首句延迟可以大幅降低到100ms级别。今天vibe coding 的成果之一：

#LLM #prefix特性 #小模型 #大模型 #首句延迟

7个月前

Seed-X：专门用于翻译的小模型字节开源Seed-X，专门用于翻译的小模型，仅7B大小，在人类评分中，翻译效果接近DeepSeek R1和Gemini Pro 2.5的水平。值得一提的是，训练过程特意去掉了STEM、代码、推理的相关数据，特别专注于翻译任务。模型：

#Seed-X #翻译模型 #字节跳动 #开源 #小模型

8个月前

谷歌开源Gemma 3n 端侧运行的小模型，分2B和4B大小，支持文本、图片、音频输入，文本输出。首个在LLM竞技场获得1300的10B以下模型。官方介绍：模型：

OpenAI新德里发布会：ChatGPT语音翻译功能引发热议· 869 条信息

Google Gemini 2.5发布引发AI模型性价比热议· 475 条信息

#谷歌 #Gemma 3n #开源 #端侧运行 #小模型

8个月前

在voice agent场景下为了响应快，会先用一个小模型做一下承接语(返回一些语气词或者附和语)，然后再等待大模型真正的返回。这个时候有个痛点是：TTS在合成单字或者短句的时候往往效果不好，比较好的一个策略就是TTS也能支持流式的输入。

OpenAI新德里发布会：ChatGPT语音翻译功能引发热议· 869 条信息

#语音助手 #小模型 #TTS流式输入 #用户体验 #技术优化

8个月前

Dia的安装包有470M, Chrome只有200M，这是塞了个小模型吗

#Dia安装包大小 #CHROME #小模型