时政
财经
科技
虚拟货币
其他
登录
#基准测试
关注
61
1周前
让 AI 独自优化算法,跑基准测试,然后循环下去♻️
谷歌Deep Research:AI操作系统雏形?· 37 条信息
#AI
#算法优化
#基准测试
#自动化
#技术
分享
评论 0
0
Geek
1周前
Groq 出品: OpenBench 为大语言模型提供标准化、可复现的基准测试,跨越20多个涵盖知识、推理、编程和数学的开源评估框架。
#Groq
#OpenBench
#大语言模型
#基准测试
#开源评估框架
分享
评论 0
0
蓝点网
1个月前
#AMD 公布线程撕裂者 9000 系列工作站处理器的基准测试,AMD 称其全面领先于同级别的英特尔至强处理器。 9000 系列的旗舰款是 #9995WX,这款处理器为 96 核心、192 线程,当然也有些配置稍微低些价格更便宜的 SKU,新系列处理器将从 7 月份开始上市销售。 查看全文:
#AMD
#线程撕裂者9000系列
#工作站处理器
#英特尔至强处理器
#基准测试
分享
评论 0
0
howie.serious
2个月前
红杉中国推出了ai agent的基准测试平台 xbench。目前o3在4项测试中全部排名第1,断档式领先。 对于这种新事物,我就不装“万事通”了:大家都是第一次听说,我刚在logseq里面新建了名为“xbench”的笔记,自己转述信息的质量不高,意义不大。 请看来自o3的详细且全面介绍🤣
#红杉中国
#AI Agent
#XBench
#o3
#基准测试
分享
评论 0
0
orange.ai
5个月前
GPT 4.5 终于发布了,Scaling Law 撞墙说的就是它? 预训练的计算量是 GPT4 的10倍,但是基准测试只比 4o 好 5% Devin 的代码测试超过了 Claude 3.5,但是不如 Claude 3.7 国外网友在吹写作,但是也有人发现不如 DeepSeek R1 输入75美元,输出150美元/百万token,是其他模型的10-100倍。 又贵,又慢,又不够好 非常尴尬 Sam 说他刷分不行,但是有思想 emmm 不知道是不是幻觉
#GPT4.5发布
#ScalingLaw
#基准测试
#Devin代码
#claude3.5
#Claude3.7
#国外网友评论
#写作能力
#DeepSeekR1
#模型性价比
#高成本
#模型性能
分享
评论 0
0
宝玉
6个月前
今天在匿名职场社区teamblind上的一个meta员工发的匿名帖子特别火:《Meta genai org in panic mode》 Meta 的生成式 AI 团队陷入了恐慌状态。 这一切的开端是 DeepSeek V3 的推出,这让 Llama 4 在各项基准测试中全面落后。更让人雪上加霜的是,一家“未知的中国公司”用仅 550 万美元的预算完成了训练,直接打脸了现有的大型模型。 目前,工程师们正在疯狂拆解 DeepSeek,试图复制其中的一切。我不是在夸张,事情就是这么紧迫。 管理层也在焦虑如何为生成式 AI 团队的高昂成本向高层交代。尤其是,当团队中每一位所谓的“领导者”拿到的薪水都远远超过了训练整个 DeepSeek V3 的成本,而这样的“领导者”团队却有数十人之多。 DeepSeek R1 的出现更是雪上加霜。虽然有些信息还不能透露,但很快就会公开,到时候情况可能更加不利。 本来,这个团队应该是一个以工程为核心的小型组织,但因为一些人想借机刷存在感、抢占资源,人为地扩大了团队规模,结果反而让大家都成了输家。
#Meta
#生成式AI
#DeepSeekV3
#Llama4
#基准测试
#中国公司
#大型模型
#预算
#团队恐慌
分享
评论 0
0
AI Will
7个月前
2024 年被AI击败的 5 个基准测试
#AI
#基准测试
#2024年
#科技进步
#人工智能发展
分享
评论 0
0
个人主页
通知
我的投稿
我的关注
我的拉黑
我的评论
我的点赞