时政
财经
科技
虚拟货币
其他
登录
#gpt-oss
关注
nicekate
1个月前
四个模型调用工具的能力,谁胜出? gpt-oss 120B 4bit GLM-4.5 Air 4bit qwen3-coder-Flash 8bit Jan-v1-4B 8bit 注:一个例子不代表所有,Exa 是 gpt-oss 的默认搜索工具 模型的工具调用能力还有很大提升空间
#模型调用
#工具
#gpt-oss
#GLM-4.5
#Qwen3
分享
评论 0
0
Lex Tang
1个月前
MBP 内存也买小了,64GB 不够用。试了一下 gpt-oss:20b 没有基础逻辑能力
#MBP
#内存不足
#gpt-oss
#20B模型
#逻辑能力不足
分享
评论 0
0
sitin
1个月前
OpenAI 时隔六年首次开源两款大模型(GPT-OSS-120B 和 GPT-OSS-20B),主打“高性能+可商用+本地部署”,在推理、工具使用等关键能力上接近甚至超越自家专有模型,并允许开发者自由微调、集成到各种应用场景。 1.架构创新 混合专家(MoE)设计: GPT-OSS-120B(1170亿参数,每token激活5.1亿参数) GPT-OSS-20B(210亿参数,每token激活3.6亿参数) 显著降低计算开销,支持128K长上下文与分组多查询注意力机制468。 2.性能对标闭源模型 120B:接近闭源模型o4-mini,在编程(Codeforces 2622分)、数学(AIME 96.6%)、医疗(HealthBench 57.6%)测试中表现优异267。 20B:接近o3-mini,可在16GB内存设备(如笔记本)运行,适合边缘计算138。 3.专为智能体(Agent)优化 原生支持函数调用、网页搜索、Python执行,工具调用失败率仅4.7%(120B)68。 提供低/中/高三档推理力度,平衡延迟与精度
#OpenAI
#gpt-oss
#开源大模型
#高性能
#可商用
分享
评论 0
0
GanymedeNil
1个月前
gpt-oss 微调教程来了
OpenAI新德里发布会:ChatGPT语音翻译功能引发热议· 495 条信息
#gpt-oss
#微调
#教程
分享
评论 0
0
Geek
1个月前
我脑补今天国内开源大语言模型智谱、千问、Kimi、DeepSeek团队满怀期待的下载 GPT-OSS 使用后,一脸懵逼的问这玩意研发花了多少钱?? 旁边人: 数十亿美元研究的成果🤣
#开源大语言模型
#gpt-oss
#智谱
#千问
#Kimi
#DeepSeek
#数十亿美元
#懵逼
分享
评论 0
0
Austin
1个月前
OpenAI 新模型 gpt-oss 发布了,一看评测也都是各种跑分和看不懂的指标。 有没有大白话评测推理或者阅读理解能力的文章、视频。 或者测试前端 UI 编写也行。
OpenAI新德里发布会:ChatGPT语音翻译功能引发热议· 495 条信息
#OpenAI
#gpt-oss
#评测
#跑分
#UI编写
分享
评论 0
0
歸藏(guizang.ai)
1个月前
昨晚 Open AI 居然发布的是开源模型就是前几天泄露的 gpt-oss-120b 和 gpt-oss-20b Gpt-oss-120b 大致相当于 OpenAI o4-mini,20B 的相当于 o3-mini 120B 需要 80G 显存推理,20B 只需要 16G 显存设备。 目前你知道的所有 LLM 周边生态都已经支持这两个模型,比如 ollama 这种
#OpenAI
#开源模型
#gpt-oss
#LLM
#Ollama
分享
评论 0
0
orange.ai
1个月前
OpenAI 开源的两个模型 gpt-oss 并不是说它们有多强(接近 4o-mini 水平肯定是有一点的) 而是优化得比较极致 一个能跑在高端笔记本上 一个能跑在高端手机上 听牛逼的 不过极致的优化下,一般都会带来严重的缺陷和降智 需要一点时间来看看
#OpenAI
#gpt-oss
#模型优化
#高端设备
#潜在缺陷
分享
评论 0
0
karminski-牙医
1个月前
就在刚刚 OpenAI 发布了两个开放权重模型! 给大家带来深度解析! gpt-oss-120b 激活参数量 5.1B gpt-oss-20b 激活参数量 3.6B 两个都是 MoE 架构的推理模型. 首先, 这两个模型发布的就已经是量化版本了, 他们的 MoE 层直接用 MXFP4 精度训练的! 这意味着暂时没有办法微调这两个模型了 (现有微调框架不支持, 得等等). 然后, 大家肯定知道 OpenAI 搞了各种奇怪的命名, 比如 O3-mini-high, 这个 high 是啥? 现在答案揭晓, OpenAI 的模型是可以配置推理努力程度的. 分为三档, low, medium, high. 当然 high 模式下跑分最高, 相对的思考时间更长. Agent 功能适配得非常好, 原生针对 function call, 网页浏览, 执行 python 代码, 各种结构化输出进行了优化. 这也能从从跑分上看出来, 使用 tool 后分数均有提升. 接下来是深度内容: 首先 openrouter 上的 horzon-alpha 和 horzon-beta 肯定就不是这俩模型啦, 上下文长度不同. 那么 orzon-alpha 和 horzon-beta 可能就是 GPT-5 系列了, 不过大家测过后都说效果没那么惊艳, 我之前猜测可能是 GPT-5-mini, 让我们拭目以待哈哈. 其次! 重点的重点! 这俩模型原生上下文长度只有 4K! 通过YaRN位置编码缩放和滑动窗口注意力最终扩展到 131072 token. 这意味着可能超过 4K 后召回性能会严重下降. 我给大家做了测试, 方法很简单, 把《孔乙己》塞进去, 然后问模型文中孔乙己这个名字出现了多少次? 答案是33次, 次数越接近这个值召回越准确(我们暂时忽略FP), 因为大模型要回顾上文才能统计. 可以看到 gpt-oss-120b 回答是 22 次 (66.67%), 作为对比, 我是用 GPT-o3 回答是 32 次 (96.97%),所以建议做RAG的场景这两个模型使用要谨慎. 当然实际也建议等等 Fiction.LiveBench 的测试结果, 会比我这个快速预览准确很多. 另外, 从官方自己的跑分看, SWEBench 分数还是很高的, 达到了62.4 (claude-Sonnet-4 是68, Qwen3-Coder-480B 是67, Kimi-K2 是65.4), 但 AiderPolyglot 分数相对较低 44.4, (claude-Sonnet-4 是56.4, Qwen3-Coder-480B 是61.8, Kimi-K2 是60). 所以实际编程效果还需要测试. 稍后我马上为大家带啦写代码的实际性能测试! #openai #GPToss
#OpenAI
#gpt-oss
#MoE
#模型量化
#上下文长度
分享
评论 0
0
个人主页
通知
我的投稿
我的关注
我的拉黑
我的评论
我的点赞