时政
财经
科技
虚拟货币
其他
登录
#小模型
关注
日月小楚 |Building AI Agents
1个月前
比起经常“逆天”,“颠覆”的大模型 小而专才是我的最爱 刚训练了一个针对推特分析的小模型 结果超过claude 4.5 和gpt 5 关键是我的小破GPU也能跑的贼溜
MiniMax M1发布:开源长上下文推理模型引发AI领域震动· 27 条信息
#小模型
#推特分析
#GPU
#Claude 4.5
#GPT 5
分享
评论 0
0
sitin
1个月前
Claude Haiku 4.5 刚发(小模型),但实力一点不“迷你”。 性能≈五个月前的旗舰 Sonnet 4 速度翻倍(体感就是同样任务等一半时间) 价格更便宜(输入 $1/百万 tokens,输出 $5/百万 tokens) 有些场景甚至反超 Sonnet 4 特点: 1)性能不“迷你” 编程:Agentic coding(SWE-bench)73.3%、Terminal coding 41.0%,几乎和 Sonnet 4(72.7%、36.4%)打平。 数学:Python 工具开着 96.3%,关工具 80.7%,小模型里很能打。 Computer Use(电脑操作):OSWorld 50.7%,直接超 Sonnet 4 的 42.2%。这块确实有点惊喜。 2)速度真的快 官方说 more than twice the speed。实际感觉:Claude Code 写代码、跑任务,等待时间直接砍半。 如果你做 API 应用,延迟下降的价值,很多时候比省钱更关键。 3)更省钱、更好上手 价位:对比 Sonnet 4,整体便宜三分之一。 输入:$1 / 1M tokens 输出:$5 / 1M tokens 接入渠道:Claude API、Amazon Bedrock、Google Cloud Vertex AI、Claude Code、网页端 / App……基本能用 Claude 的地方都能切换 Haiku 4.5。 模型名:claude-haiku-4-5 4)安全性更稳 Haiku 4.5 被官方评为目前最安全的 Claude 系列模型之一: 自动对齐评估里,误对齐行为比例更低(比 Sonnet 4.5、Opus 4.1 还低)。 ASL-2 分级(CBRN 风险评估表现好);而 Sonnet 4.5 / Opus 4.1 是更严格的 ASL-3。 适合谁? 高频调用 / 算力敏感:比如代码助手、数据处理、对话式业务逻辑,想要更低成本 + 更低延迟。 需要“电脑操作”能力的自动化工作流:浏览器/系统级任务编排更稳了。 团队大规模接入:同预算撑起更多调用量。 一句话总结 五个月前,Claude Sonnet 4 是最先进的型号。如今,Claude Haiku 4.5 提供类似的编码性能,但价格仅为其三分之一,速度却提升了一倍多。
AI编程工具激战:Claude Code、Gemini Cli崛起· 1256 条信息
#Claude Haiku 4.5
#小模型
#性能提升
#速度翻倍
#低成本
分享
评论 0
0
九原客
2个月前
目前个人测试中文效果最好的 端到端文档识别小模型 是腾讯的 POINTS-Reader(比小红书的dots.ocr 还要好一些)。 做了如下小小的工作: 1. 合并了官方的PR到sglang 0.5.3 版本,可以高效推理。 2. 基于TRL的模型训练代码,可以进行训练。训练只需要图片和对应的markdown文本。
深度学习模型升级引发AI能力大跃进,行业迎新变革· 143 条信息
#腾讯
#POINTS-Reader
#文档识别
#小模型
#sglang
分享
评论 0
0
宝玉
2个月前
小模型不是 Agentic AI 的未来,小模型只配给 Agent 当工具 现阶段 Agent 的主要问题不是成本过高,而是智能不足,所以做不好任务,所以需要浪费很多 Token。 不能拿小模型在特定环境特定任务 RL(强化学习) 后的结果来当证据,这不代表其在真实任务中的能力,这就是为什么一堆模型靠训练测试集刷很高分,但是实际一用很垃圾的原因。 真实世界的任务是很复杂的,用户的请求总是千奇百怪,Agent 的核心能力是能充分理解用户的需求,去规划去调用合适的工具收集上下文完成任务。 这样的核心能力连大模型都做不好,更别说现在的小模型,再怎么微调也无法提升 Agentic 能力。 但不是说小模型没用,它作为 Agent 的工具是挺好的,可以低成本高效的完成一些特定任务。 举个例子来说你要做一个翻译的智能体,你可以用 Claude 4 负责任务的规划拆分,去调用工具,但具体翻译文本,可以用一个开源的小模型帮你翻译。
#Agentic AI
#小模型
#大模型
#任务规划
#智能不足
分享
评论 0
0
Leo Xiang
4个月前
利用好LLM 的prefix特性,用小模型先回复,然后大模型续上,LLM 首句延迟可以大幅降低到100ms级别。 今天vibe coding 的成果之一:
#LLM
#prefix特性
#小模型
#大模型
#首句延迟
分享
评论 0
0
Gorden Sun
4个月前
Seed-X:专门用于翻译的小模型 字节开源Seed-X,专门用于翻译的小模型,仅7B大小,在人类评分中,翻译效果接近DeepSeek R1和Gemini Pro 2.5的水平。值得一提的是,训练过程特意去掉了STEM、代码、推理的相关数据,特别专注于翻译任务。 模型:
#Seed-X
#翻译模型
#字节跳动
#开源
#小模型
分享
评论 0
0
Gorden Sun
5个月前
谷歌开源Gemma 3n 端侧运行的小模型,分2B和4B大小,支持文本、图片、音频输入,文本输出。首个在LLM竞技场获得1300的10B以下模型。 官方介绍: 模型:
OpenAI新德里发布会:ChatGPT语音翻译功能引发热议· 869 条信息
Google Gemini 2.5发布引发AI模型性价比热议· 475 条信息
#谷歌
#Gemma 3n
#开源
#端侧运行
#小模型
分享
评论 0
0
Leo Xiang
5个月前
在voice agent场景下为了响应快,会先用一个小模型做一下承接语(返回一些语气词 或者 附和语),然后再等待大模型真正的返回。 这个时候有个痛点是:TTS在合成单字 或者 短句的时候往往效果不好,比较好的一个策略就是TTS也能支持流式的输入。
OpenAI新德里发布会:ChatGPT语音翻译功能引发热议· 869 条信息
#语音助手
#小模型
#TTS流式输入
#用户体验
#技术优化
分享
评论 0
0
wong2
5个月前
Dia的安装包有470M, Chrome只有200M,这是塞了个小模型吗
#Dia安装包大小
#CHROME
#小模型
分享
评论 0
0
个人主页
通知
我的投稿
我的关注
我的拉黑
我的评论
我的点赞