时政
财经
科技
虚拟货币
其他
登录
#DeepSeek-R1
关注
karminski-牙医
1周前
GPT-OSS 模型的 EQBench 结果出了, 基本就是 GPT-4.1-mini 和 GPT-4.1-nano 的水平. 长篇创意写作基本接近 Qwen3-30B-A3B 的水平。gpt-oss-120b 120B VS 30B。写作方面好不好用不言而喻了。更何况有幻觉大师 DeepSeek-R1 在前面。 我比较好奇的是除了给程序API调用,真的有人在工作中用 GPT-4.1-mini 吗?
#GPT-OSS模型
#EQBench结果
#GPT-4.1-mini
#Qwen3-30B-A3B
#DeepSeek-R1
分享
评论 0
0
小互
1个月前
MiniMax 发布混合注意力推理开源模型 MiniMax-M1 训练成本仅为 53.5 万美元 性能超越Qwen3、DeepSeek-R1 逼近顶级闭源模型 MiniMax-M1引入了一种全新Lightning Attention 上下文优化注意力机制 相比 DeepSeek R1 等模型,在处理 10 万 tokens 的生成任务时,MiniMax-M1 的计算量仅为其 25%。 该模型基于前代模型 MiniMax-Text-01 开发,总参数规模为 4560亿,每个token激活参数为 45.9亿,支持最长 100万tokens 的上下文输入(约为 DeepSeek R1 的8倍)。 提出了一种新型强化学习算法 CISPO(Clipped Importance Sampling with Policy Optimization),该算法: 不裁剪 token 梯度,而是裁剪采样权重(importance weights)。 减少训练不稳定性,提升收敛质量。 缩短训练时长(Qwen2.5对比实验显示,训练速度提升2倍)
MiniMax M1发布:开源长上下文推理模型引发AI领域震动· 7 条信息
#MiniMax-M1
#开源模型
#Lightning Attention
#深度学习
#Qwen3
#DeepSeek-R1
#AI性能
#模型对比
#注意力机制
#上下文优化
分享
评论 0
0
howie.serious
2个月前
作为一个免费开源 llm,deepseek-R1 的 benchmark 分数确实吓人。
#DeepSeek-R1
#Benchmark
#开源
#免费
#大型语言模型
#评分
分享
评论 0
0
karminski-牙医
4个月前
给大家带来全网最速 DeepSeek-V3-0324 写代码实测! 直接说结论—— 超越 DeepSeek-R1!甚至超越 Claude-3.7! 难以想象这还不是一个 Thinking 模型! DeepSeek-V3-0324 目前以 328.3 分在 KCORES 大模型竞技场排名第三 (图1),仅次于 claude-3.7-sonnet-thinking 和 claude-3.5 (没错 claude-3.5 在我们的测试下比 claude-3.7 要好一些)。 四项评测中(放不下的图我放评论区): 20 小球碰撞测试 (图2),肉眼可见的进步,之前 DeepSeek-V3 的小球挤成一团,现在物理运动模拟得非常好,仅因掉出了7边形扣了5分,项目排名第5 (图3) mandelbrot-set-meet-libai 测试 (图4),没有过多变化,分数较DeepSeek-V3 低了2分,主要还是将渲染方向搞反了以至于拖累了渲染性能,但是完成度可以看到比之前高很多。项目排名第12 (图5) 火星任务测试(图6),巨大的提升,这次星球,图例均渲染正确,甚至发射和返回窗口计算也有很大进步!项目排名第3 (图7) 九大行星模拟测试(图8),这个是史诗级提升,这是测试的25个模型中,唯一一个画了土星环的大模型!(画土星环就如同画时钟要写3,6,9,12. 画苹果要有个梗一样)项目排名第16,主要还是地球轨道周期没写对 (图9) 总体而言,DeepSeek-V3-0324 能力十分可怕,甚至这还都不是 DeepSeek-V4,更不是 DeepSeek-R2 !我现在十分期待 DeepSeek-R2 的发布了! 评测是开源的哦,地址: #大模型竞技场
#DeepSeek-V3-0324
#DeepSeek-R1
#Claude-3.7
#Thinking模型
#KCORES
#大模型竞技场
分享
评论 0
0
howie.serious
5个月前
gpt-4.5的 IQ 得分出来了,94分,似乎并不高(deepseek-R1 是 102 分)。那么,现在的llm,IQ分别是多少?即将发布的 o3,IQ 到底会有多高? 先看结果排名: o1 —— 124;o1 pro mode ——120; o3-mini——116; gpt-4o——91;gpt-4——80; Trackingai 网站上的 IQ 分数分为两套:线下IQ 测试,和线上 mensa 测试。为了避免混淆,便于对比,统一选取了线上 mensa 测试。 我觉得这个IQ 测试结果是基本可信的,而且保持了一致性。对比之下,之前网友宣称 o3 的 IQ 可能有 157,那个就只是一种猜测,是 o3 没发布前他个人推测的数据。 那么,即将发布的 o3,IQ 大概是多少?我猜测是135~150 之间。 推测过程:目前 IQ 最高的 o1 是 120 分档次,而 o1作为推理模型,是基于 gpt-4 聊天模型训练出来的,在基础模型上有 30-40 分的提高。 O3 大概率是基于gpt-4.5 训练出来的,IQ 提高保底是 30-40 分,多了可能有 50分,所以,在 gpt-4.5 的94 分底子上,加上推理能力带来的 IQ 提升,大概是 135 到 150。 大概一个月之后,我们就知道真实结果了。
#GPT-4.5
#IQ得分
#DeepSeek-R1
#llm排名
#O1
#o3
#GPT-4o
#GPT-4
#Trackingai
分享
评论 0
0
Houge
6个月前
这下~我终于满意了~3 块 NVIDIA Quadro P6000 神马 deepseek-r1 70b 完全不在话下
#NVIDIA
#QuadroP6000
#DeepSeek-R1
分享
评论 0
0
karminski-牙医
6个月前
深度分析下 DeepSeek-R1 用华为昇腾,推理集群大概多大? 重磅消息,昨天的新闻,DeepSeek-R1 真的能在华为的昇腾AI加速卡上跑了。 根据华为官方,Atlas(昇腾) 300I Pro 推理卡单卡拥有 140 TOPS INT8 和 70 TFLOPS FP16这个性能足够推理用,但关键的内存则使用了LPDDR4X 24 GB,总带宽204.8 GB/s
#DeepSeek-R1
#华为昇腾
#AI加速卡
#Atlas 300I Pro
#AI推理
#深度学习
#科技新闻
分享
评论 0
0
勃勃OC
6个月前
在最新的aidanbench上,o3-mini创下排行榜评测记录 而我看了一下,deepseek-r1仅排名中游。。 这玩意虽然可能改进了LLM的训练效率 但要说冲击AI发展,乃至美股 那是绝对扯淡 真正冲击的只有特朗普的芯片关税而已
#AI发展
#芯片关税
#aidanbench
#o3-mini
#DeepSeek-R1
分享
评论 0
0
howie.serious
6个月前
求教:我不明白,为什么这么简单的一个题,o3-mini 和 deepseek-R1 都做不对? 是因为对训练集数据过拟合了吗? 错到这么离谱,已经有点抽象了。有懂的朋友可以解释下原因吗
AI高考数学测试:O3意外落后,Gemini夺冠引发热议· 15 条信息
#o3-mini
#DeepSeek-R1
#AI模型
#过拟合
#错误
分享
评论 0
0
Jintao Zhang 张晋涛
6个月前
DeepSeek-R1 已经上线 #Azure AI Foundry,目前是 serverless 模式部署 & 价格为 0。 目前速度还不错,而且应该是 R1 而非其他平台提供的蒸馏版本
#Azure AI Foundry
#serverless
#DeepSeek-R1
#蒸馏版本
分享
评论 0
0
piglei
6个月前
拿两年前玩 ChatGPT 时的“软件工程大师”prompt,测试了一下从 GPT3 到 DeepSeek-R1,AI 的中文写作能力的变化。 两年前:“海鸥知道风向,树叶随风起。持剪刀者,谨慎剪叶。” ↓ 两年后:“断根求叶茂,可得几时春?” 好的,以后中文写不过 AI 了。
#ChatGPT
#AI中文写作
#软件工程大师
#GPT3
#DeepSeek-R1
分享
评论 0
0
DeepSeek
6个月前
🚀 DeepSeek-R1 is here! ⚡ Performance on par with OpenAI-o1 📖 Fully open-source model & technical report 🏆 MIT licensed: Distill & commercialize freely! 🌐 Website & API are live now! Try DeepThink at today! 🐋 1/n
#DeepSeek-R1
#OpenAI-o1
#open-source
#MIT licensed
#Distill
#commercialize
#Website
#API
分享
评论 0
0
个人主页
通知
我的投稿
我的关注
我的拉黑
我的评论
我的点赞