#gpt-oss

1个月前

Ollama Cloud 的这三个模型还可以玩玩，趁现在没收费，登录即可创建 Key👇 deepseeK-V3.1:671b qwen3-coder:480b gpt-oss:120b

#Ollama Cloud #模型 #DeepSeek-V3.1 #Qwen3-Coder #gpt-oss

2个月前

四个模型调用工具的能力，谁胜出？ gpt-oss 120B 4bit GLM-4.5 Air 4bit qwen3-coder-Flash 8bit Jan-v1-4B 8bit 注：一个例子不代表所有，Exa 是 gpt-oss 的默认搜索工具模型的工具调用能力还有很大提升空间

#模型调用 #工具 #gpt-oss #GLM-4.5 #Qwen3

2个月前

MBP 内存也买小了，64GB 不够用。试了一下 gpt-oss:20b 没有基础逻辑能力

#MBP #内存不足 #gpt-oss #20B模型 #逻辑能力不足

2个月前

OpenAI 时隔六年首次开源两款大模型（GPT-OSS-120B 和 GPT-OSS-20B），主打“高性能+可商用+本地部署”，在推理、工具使用等关键能力上接近甚至超越自家专有模型，并允许开发者自由微调、集成到各种应用场景。 1.架构创新混合专家（MoE）设计： GPT-OSS-120B（1170亿参数，每token激活5.1亿参数） GPT-OSS-20B（210亿参数，每token激活3.6亿参数）显著降低计算开销，支持128K长上下文与分组多查询注意力机制468。 2.性能对标闭源模型 120B：接近闭源模型o4-mini，在编程（Codeforces 2622分）、数学（AIME 96.6%）、医疗（HealthBench 57.6%）测试中表现优异267。 20B：接近o3-mini，可在16GB内存设备（如笔记本）运行，适合边缘计算138。 3.专为智能体（Agent）优化原生支持函数调用、网页搜索、Python执行，工具调用失败率仅4.7%（120B）68。提供低/中/高三档推理力度，平衡延迟与精度

#OpenAI #gpt-oss #开源大模型 #高性能 #可商用

3个月前

gpt-oss 微调教程来了

OpenAI新德里发布会：ChatGPT语音翻译功能引发热议· 627 条信息

#gpt-oss #微调 #教程

3个月前

我脑补今天国内开源大语言模型智谱、千问、Kimi、DeepSeek团队满怀期待的下载 GPT-OSS 使用后，一脸懵逼的问这玩意研发花了多少钱？？旁边人：数十亿美元研究的成果🤣

#开源大语言模型 #gpt-oss #智谱 #千问 #Kimi #DeepSeek #数十亿美元 #懵逼

3个月前

OpenAI 新模型 gpt-oss 发布了，一看评测也都是各种跑分和看不懂的指标。有没有大白话评测推理或者阅读理解能力的文章、视频。或者测试前端 UI 编写也行。

OpenAI新德里发布会：ChatGPT语音翻译功能引发热议· 627 条信息

#OpenAI #gpt-oss #评测 #跑分 #UI编写

歸藏(guizang.ai)

3个月前

昨晚 Open AI 居然发布的是开源模型就是前几天泄露的 gpt-oss-120b 和 gpt-oss-20b Gpt-oss-120b 大致相当于 OpenAI o4-mini，20B 的相当于 o3-mini 120B 需要 80G 显存推理，20B 只需要 16G 显存设备。目前你知道的所有 LLM 周边生态都已经支持这两个模型，比如 ollama 这种

#OpenAI #开源模型 #gpt-oss #LLM #Ollama

3个月前

OpenAI 开源的两个模型 gpt-oss 并不是说它们有多强（接近 4o-mini 水平肯定是有一点的）而是优化得比较极致一个能跑在高端笔记本上一个能跑在高端手机上听牛逼的不过极致的优化下，一般都会带来严重的缺陷和降智需要一点时间来看看

#OpenAI #gpt-oss #模型优化 #高端设备 #潜在缺陷

karminski-牙医

3个月前

就在刚刚 OpenAI 发布了两个开放权重模型! 给大家带来深度解析! gpt-oss-120b 激活参数量 5.1B gpt-oss-20b 激活参数量 3.6B 两个都是 MoE 架构的推理模型. 首先, 这两个模型发布的就已经是量化版本了, 他们的 MoE 层直接用 MXFP4 精度训练的! 这意味着暂时没有办法微调这两个模型了 (现有微调框架不支持, 得等等). 然后, 大家肯定知道 OpenAI 搞了各种奇怪的命名, 比如 O3-mini-high, 这个 high 是啥? 现在答案揭晓, OpenAI 的模型是可以配置推理努力程度的. 分为三档, low, medium, high. 当然 high 模式下跑分最高, 相对的思考时间更长. Agent 功能适配得非常好, 原生针对 function call, 网页浏览, 执行 python 代码, 各种结构化输出进行了优化. 这也能从从跑分上看出来, 使用 tool 后分数均有提升. 接下来是深度内容: 首先 openrouter 上的 horzon-alpha 和 horzon-beta 肯定就不是这俩模型啦，上下文长度不同. 那么 orzon-alpha 和 horzon-beta 可能就是 GPT-5 系列了, 不过大家测过后都说效果没那么惊艳, 我之前猜测可能是 GPT-5-mini, 让我们拭目以待哈哈. 其次! 重点的重点! 这俩模型原生上下文长度只有 4K! 通过YaRN位置编码缩放和滑动窗口注意力最终扩展到 131072 token. 这意味着可能超过 4K 后召回性能会严重下降. 我给大家做了测试, 方法很简单, 把《孔乙己》塞进去, 然后问模型文中孔乙己这个名字出现了多少次? 答案是33次, 次数越接近这个值召回越准确(我们暂时忽略FP), 因为大模型要回顾上文才能统计. 可以看到 gpt-oss-120b 回答是 22 次 (66.67%), 作为对比, 我是用 GPT-o3 回答是 32 次 (96.97%)，所以建议做RAG的场景这两个模型使用要谨慎. 当然实际也建议等等 Fiction.LiveBench 的测试结果, 会比我这个快速预览准确很多. 另外, 从官方自己的跑分看, SWEBench 分数还是很高的, 达到了62.4 (claude-Sonnet-4 是68, Qwen3-Coder-480B 是67， Kimi-K2 是65.4), 但 AiderPolyglot 分数相对较低 44.4, (claude-Sonnet-4 是56.4, Qwen3-Coder-480B 是61.8， Kimi-K2 是60). 所以实际编程效果还需要测试. 稍后我马上为大家带啦写代码的实际性能测试! #openai #GPToss

#OpenAI #gpt-oss #MoE #模型量化 #上下文长度