#基准测试

4个月前

流传着一份泄漏的Gemini 3 的基准测试结果不知道真假😌 今晚见分晓

AI高考数学测试：O3意外落后，Gemini夺冠引发热议· 67 条信息

#Gemini 3 #基准测试 #泄漏 #不确定性 #期待

5个月前

后来越深入想这个“六大模型跑币圈”的“基准测试”越不对：其实什么都测不出来。非常重要的原因是：当第一次询问有了倾向性（让模型做出交易决策，而不是先明确其决策是否建仓），后面模型建仓后就变了。

币圈“1011”六倍崩盘：高杠杆爆仓潮，谁在裸泳？· 6476 条信息

#六大模型 #币圈 #基准测试 #交易决策 #倾向性

6个月前

🚨Claude Sonnet 4.5 新版本发布现在是最强编码者。疯狂的基准测试。 8个令人惊叹的更新+示例：

AI编程工具激战：Claude Code、Gemini Cli崛起· 1256 条信息

#Claude Sonnet 4.5 #AI #编码 #基准测试 #新版本

6个月前

提问：Grok 4 Fast 和 DeepSeek-V3.1-Terminus，搜索他们在不同基准上的对比，生成表格，还有价格的对比结果：两个模型在这个问题都回答不好图1-图2是我将链接和图片信息直接发给 Grok 4 Fast，几次修改后的结果图3 是Grok 4 Fast生成的错误信息图4 是DeepSeek-V3.1-Terminus生成的

#Grok 4 Fast #DeepSeek-V3.1-Terminus #模型对比 #回答错误 #基准测试

7个月前

让 AI 独自优化算法，跑基准测试，然后循环下去♻️

谷歌Deep Research：AI操作系统雏形？· 145 条信息

#AI #算法优化 #基准测试 #自动化 #技术

7个月前

Groq 出品： OpenBench 为大语言模型提供标准化、可复现的基准测试，跨越20多个涵盖知识、推理、编程和数学的开源评估框架。

#Groq #OpenBench #大语言模型 #基准测试 #开源评估框架

9个月前

#AMD 公布线程撕裂者 9000 系列工作站处理器的基准测试，AMD 称其全面领先于同级别的英特尔至强处理器。 9000 系列的旗舰款是 #9995WX，这款处理器为 96 核心、192 线程，当然也有些配置稍微低些价格更便宜的 SKU，新系列处理器将从 7 月份开始上市销售。查看全文：

#AMD #线程撕裂者9000系列 #工作站处理器 #英特尔至强处理器 #基准测试

10个月前

红杉中国推出了ai agent的基准测试平台 xbench。目前o3在4项测试中全部排名第1，断档式领先。对于这种新事物，我就不装“万事通”了：大家都是第一次听说，我刚在logseq里面新建了名为“xbench”的笔记，自己转述信息的质量不高，意义不大。请看来自o3的详细且全面介绍🤣

#红杉中国 #AI Agent #XBench #o3 #基准测试

1年前

GPT 4.5 终于发布了，Scaling Law 撞墙说的就是它？预训练的计算量是 GPT4 的10倍，但是基准测试只比 4o 好 5% Devin 的代码测试超过了 Claude 3.5，但是不如 Claude 3.7 国外网友在吹写作，但是也有人发现不如 DeepSeek R1 输入75美元，输出150美元/百万token，是其他模型的10-100倍。又贵，又慢，又不够好非常尴尬 Sam 说他刷分不行，但是有思想 emmm 不知道是不是幻觉

#GPT4.5发布 #ScalingLaw #基准测试 #Devin代码 #claude3.5 #Claude3.7 #国外网友评论 #写作能力 #DeepSeekR1 #模型性价比 #高成本 #模型性能

1年前

今天在匿名职场社区teamblind上的一个meta员工发的匿名帖子特别火：《Meta genai org in panic mode》 Meta 的生成式 AI 团队陷入了恐慌状态。这一切的开端是 DeepSeek V3 的推出，这让 Llama 4 在各项基准测试中全面落后。更让人雪上加霜的是，一家“未知的中国公司”用仅 550 万美元的预算完成了训练，直接打脸了现有的大型模型。目前，工程师们正在疯狂拆解 DeepSeek，试图复制其中的一切。我不是在夸张，事情就是这么紧迫。管理层也在焦虑如何为生成式 AI 团队的高昂成本向高层交代。尤其是，当团队中每一位所谓的“领导者”拿到的薪水都远远超过了训练整个 DeepSeek V3 的成本，而这样的“领导者”团队却有数十人之多。 DeepSeek R1 的出现更是雪上加霜。虽然有些信息还不能透露，但很快就会公开，到时候情况可能更加不利。本来，这个团队应该是一个以工程为核心的小型组织，但因为一些人想借机刷存在感、抢占资源，人为地扩大了团队规模，结果反而让大家都成了输家。

#Meta #生成式AI #DeepSeekV3 #Llama4 #基准测试 #中国公司 #大型模型 #预算 #团队恐慌

1年前

2024 年被AI击败的 5 个基准测试

#AI #基准测试 #2024年 #科技进步 #人工智能发展