#模型评估

𝗖𝘆𝗱𝗶𝗮𝗿

5个月前

最新更新的功能中，大家反馈 Word 格式导出，公式直接可编辑还是非常实用的！ F1 分数（F1 Score）是机器学习中用于评估分类模型性能的重要指标，它是精确率（Precision）和召回率（Recall）的调和平均数。F1 分数综合考虑了模型的查准率和查全率，特别适用于处理类别不平衡的数据集。

#Word格式导出 #公式可编辑 #F1分数 #机器学习 #模型评估

karminski-牙医

7个月前

GPT-OSS-20B 比 GPT-OSS-120B 好？还记得OpenAI的开放权重模型吗？最新的论文评估得到结论 GPT-OSS-120B 在编程方面的确不如 GPT-OSS-20B. 跟我之前测试的结论相同. 论文中指出 HumanEval 和 MMLU 这两个测试中 GPT-OSS-20B 表现均比 120B 效果好。而我自己的评测中，20B编程表现好的方面在于稳定，即基本每次生成都能得到表现一致的效果，当然不是说20B足够好，但是它如果出问题，问题也是稳定的，这样容易修改一些。而120B会在各种地方出问题。付我上次测试的结论： OSS-120B 和 20B 我觉得有点摸不到头脑, 甚至 20B 生成起来我感觉代码更稳定? OSS-120B 随机性非常大, 在这个测试里面 OSS-120B 甚至反复抽卡8次, 都没有 OSS-20B 抽卡 2 次的效果好. 这里我的猜测是 120B 每次激活专家量很少, 而总专家数量又多, 导致每 token 随机到相同专家的概率会特别小, 进而表现不是那么稳定. 而 20B 则好一些, 4/128 VS 4/32 专家. 我一会也会再测下, 看我的猜测对不对. 论文地址：

#GPT-OSS-20B #GPT-OSS-120B #模型评估 #编程能力 #稳定性

7个月前

好多人说 DeepSeek 不行了，但是半年多以前的 R1 依然在大多数模型发布的 benchmark 里，这不恰恰说明半年前的模型依然能打么？

深度学习模型升级引发AI能力大跃进，行业迎新变革· 143 条信息

#DeepSeek #R1模型 #Benchmark #模型评估 #技术讨论

8个月前

用 claude-sonnet-4、gemini-2.5-pro、gpt-4o 分别锐评了 anthropic 和 openai 的官方 Go SDK 的 tool calling 哪个好，这三个模型一致认为 anthropic 的设计得好

Google Gemini 2.5发布引发AI模型性价比热议· 475 条信息

OpenAI新德里发布会：ChatGPT语音翻译功能引发热议· 869 条信息

#Go SDK #tool calling #Anthropic #OpenAI #模型评估

9个月前

iOS 26 可以接入 Apple LLM 了，这个 3b 的模型有点儿 GPT-3.5 的味道。粗测下来函数调用不太行，思维僵硬，只适合做一些摘要或信息提取的工作。

iOS 26 Beta 2：流畅优化难抵卡顿发热· 190 条信息

#iOS 26 #Apple LLM #GPT-3.5 #模型评估 #信息提取