时政
财经
科技
虚拟货币
其他
登录
#模型评估
关注
karminski-牙医
1个月前
GPT-OSS-20B 比 GPT-OSS-120B 好? 还记得OpenAI的开放权重模型吗?最新的论文评估得到结论 GPT-OSS-120B 在编程方面的确不如 GPT-OSS-20B. 跟我之前测试的结论相同. 论文中指出 HumanEval 和 MMLU 这两个测试中 GPT-OSS-20B 表现均比 120B 效果好。而我自己的评测中,20B编程表现好的方面在于稳定,即基本每次生成都能得到表现一致的效果,当然不是说20B足够好,但是它如果出问题,问题也是稳定的,这样容易修改一些。而120B会在各种地方出问题。 付我上次测试的结论: OSS-120B 和 20B 我觉得有点摸不到头脑, 甚至 20B 生成起来我感觉代码更稳定? OSS-120B 随机性非常大, 在这个测试里面 OSS-120B 甚至反复抽卡8次, 都没有 OSS-20B 抽卡 2 次的效果好. 这里我的猜测是 120B 每次激活专家量很少, 而总专家数量又多, 导致每 token 随机到相同专家的概率会特别小, 进而表现不是那么稳定. 而 20B 则好一些, 4/128 VS 4/32 专家. 我一会也会再测下, 看我的猜测对不对. 论文地址:
#GPT-OSS-20B
#GPT-OSS-120B
#模型评估
#编程能力
#稳定性
分享
评论 0
0
yihong0618
1个月前
好多人说 DeepSeek 不行了,但是半年多以前的 R1 依然在大多数模型发布的 benchmark 里,这不恰恰说明半年前的模型依然能打么?
深度学习模型升级引发AI能力大跃进,行业迎新变革· 72 条信息
#DeepSeek
#R1模型
#Benchmark
#模型评估
#技术讨论
分享
评论 0
0
yetone
2个月前
用 claude-sonnet-4、gemini-2.5-pro、gpt-4o 分别锐评了 anthropic 和 openai 的官方 Go SDK 的 tool calling 哪个好,这三个模型一致认为 anthropic 的设计得好
Google Gemini 2.5发布引发AI模型性价比热议· 188 条信息
OpenAI新德里发布会:ChatGPT语音翻译功能引发热议· 502 条信息
#Go SDK
#tool calling
#Anthropic
#OpenAI
#模型评估
分享
评论 0
0
Gong Z.
3个月前
iOS 26 可以接入 Apple LLM 了,这个 3b 的模型有点儿 GPT-3.5 的味道。粗测下来函数调用不太行,思维僵硬,只适合做一些摘要或信息提取的工作。
iOS 26 Beta 2:流畅优化难抵卡顿发热· 137 条信息
#iOS 26
#Apple LLM
#GPT-3.5
#模型评估
#信息提取
分享
评论 0
0
个人主页
通知
我的投稿
我的关注
我的拉黑
我的评论
我的点赞