时政
财经
科技
虚拟货币
其他
登录
karminski-牙医
关注
统计数据
80
文章
0
粉丝
0
获赞
364
阅读
热门文章
1
TechFlow 深潮 发布的文章:近期教育领域的变化引发了广泛讨论,我认为教育改革应该更加注重学生的个性化发展和创新能...
145
32
karminski-牙医
4个月前
给大家解析一下 DeepSeek-R1-0528 的官方放出的评测数据。目前 DeepSeek-R1-0528 毫无疑问是开源模型第一了, Qwen3-235B-A22B 在热座上仅座了一个月[苦涩]. 先看图1,我们可以看到编程能力和数学能力都有巨大的提升,基本都是10%左右的提升。这是一个相当猛的结果。而大家这两天放出的测试也能看到这个新版本R1直逼 OpenAI-o3 或者 Gemini-2.5-Pro 的水平. (注意我把 CodeForces 测试分数等比缩小了100x,要不然坐标轴放不下了. 不影响展示提升比例) 具体来讲, Aider-Polyglot 测试从 53 提升到了 71 分, 这个分数比 claude-opus-4 都要高, 仅次于 Gemini-2.5-Pro, claude-opus-4-thinking, o4-mini-high 这三个都是72分。 数学能力的 AIME24'25 测试均提升了10分+, 这里猜测会不会之前放出的 DeepSeek-Prover-V2 会不会也能在训练中起到不小作用 然后看通用能力, MMLU 提升有限, MMLU 是个什么测试呢? 它是个涵盖了多个学科的问答选择题, 问题类似——锅包肉用什么肉? A. 猪肉, B. 羊肉, C.牛肉, D. 鸡肉 (当然实际问题是专业性问题, 比我这个难很多). 目前基础版本的 MMLU 早就被刷爆了(接近满分), 而这次两个 MMLU 的修改版测试没有什么提升, 但这并不是模型训练出现了问题, 而是也快到这两个测试的天花板了, 导致没什么区分度. 这里的区分度可以理解为十以内加减法没有办法作为高考数学题. GPQA 也类似, 但现在也有要被刷爆的趋势了. SimpleQA (这个是OpenAI的测试集) 和 Humanity's Last Exam 这两个目前还没被刷爆, 当然这两个也特别难, 我截图了 Humanity's Last Exam 的例题 (图2) 大家可以看看, 作为一个人类, 我非常有自信这个测试的 2500 道题目全都打 0 分哈哈哈哈. 最后说下总结, 我之前是略对 DeepSeek 这么久没更新有点焦虑的, 但现在来看完全没必要, 甚至只是更新了 R1 就能达到这种水平, 都不用把 R2 掏出来. 这就让大家对 R2 期待更高. 我是真心希望 R2 能有些多模态能力的. 另外题外话, 未来大模型的测试会充满困难, 甚至做出一套完善的测试题目的速度都没大模型发布得快, 现在的头部训练水平会导致新的测试和语料放出后不过几个月就会淘汰. 在我们达到 transformer 模型的理论极限之前, 想要实现AGI, 训练语料的瓶颈可能会更快达到. 所以 R2 的突破会不会是强化学习模式上的新突破, 它的自主学习会更强, 人类的监督只能用来保证模型安全. 否则人类干预完全就是训练的负因素. 让我们拭目以待. #deepseek
深度学习模型升级引发AI能力大跃进,行业迎新变革· 106 条信息
#DeepSeek-R1-0528
#开源模型
#Qwen3-235B-A22B
#编程能力
#数学能力
#OpenAI-o3
#Gemini
分享
评论 0
0
karminski-牙医
4个月前
DeepSeek-R1-0528 模型上传了哈,不过模型卡还没填写,估计还要再等一会 地址: #DeepSeek
深度学习模型升级引发AI能力大跃进,行业迎新变革· 106 条信息
#DeepSeek
#模型上传
分享
评论 0
0
karminski-牙医
4个月前
有人已经开始尝试把大模型装到玩具上了哈哈哈 看到个博主Complex-Indication使用树莓派 Zero 2 的摄像头采集图像,然后使用wifi上传到电脑,电脑使用 SmolVLM 来识别图像,再将控制命令传回去进行控制。不过刚开始完全不能运行,不过他用200张图微调了下模型,挂了个LoRA后,机器人就能走了! 他使用的 prompt 是这样的(我翻译成了中文):根据图像选择以下一项行动:前进,向左,向右,后退。若视野被障碍物阻挡,则选择后退。若左侧有障碍物,则选择向右。若右侧有障碍物,则选择向左。若没有障碍物,则选择前进。根据图像选择以下一项行动:前进,向左,向右,后退。若视野被障碍物阻挡,则选择后退。若左侧有障碍物,则选择向右。若右侧有障碍物,则选择向左。若没有障碍物,则选择前进。
#大模型
#玩具应用
#树莓派
#图像识别
#SmolVLM
#微调模型
#机器人控制
#LoRA
#机器学习
分享
评论 0
0
karminski-牙医
5个月前
Cursor 发布的再 cursor 上最受欢迎的模型和使用频率增长最快的模型 这么看 Claude-3.5-Sonnet 真的是一代传奇, 到现在了都很能打 (图片来自 cursor 官推)
#Cursor
#Claude-3.5-Sonnet
#最受欢迎模型
#使用频率增长
分享
评论 0
0
karminski-牙医
5个月前
Qwen3 发布啦! 本次发布的模型包括: MoE 模型 Qwen3-235B-A22B (MoE, 总大小235B, 激活参数22B, 上下文128K) Qwen3-30B-A3B (MoE, 总大小30B, 激活参数3B, 上下文128K) 非 MoE 模型: Qwen3-32B Qwen3-14B Qwen3-8B Qwen3-4B Qwen3-1.7B Qwen3-0.6B 新版本的 Qwen3 特性如下: - 混合思维模式, 搭载了 thinking 开关, 可以直接手动控制要不要开启 thinking - 多语言支持, 支持 119 种语言和方言 - Agent 能力提升, 提升了编码和 Agent 方面的表现,并加强了 MCP 的支持 另外, 的 Qwen3 也上线了啦! 技术报告地址: 模型地址: Github Repo: #qwen3发布
#Qwen3
#MoE模型
#非MoE模型
#AI模型发布
分享
评论 0
0
karminski-牙医
5个月前
斯坦福发了个新的 Transformer 课程,这个课程邀请到了 Andrej Karpathy, Geoffrey Hinton, Jim Fan, Ashish Vaswani 等大佬,可以免费在线观看 地址:
#斯坦福
#Transformer课程
#Andrej Karpathy
#Geoffrey Hinton
#Jim Fan
#Ashish Vaswani
#免费视频
分享
评论 0
0
karminski-牙医
5个月前
看到个博主 tycho_brahes_nose_ 搞了个以可视化的方式展示 GPT-2(小型)模型的3D演示。 这个演示展示了输入prompt后每个注意力块的注意力权重矩阵的计算过程。注意力头在 y 轴堆叠, token 到 token 的交互在 x 轴和 z 轴上展示。非常有助于大家理解GPT模型是怎么运行的。 在线体验地址:
#GPT-2
#人工智能
#模型可视化
#Attention机制
#3D展示
分享
评论 0
0
karminski-牙医
5个月前
新的OpenAI梗图 (图片作者见右下角)
#OpenAI
#梗图
分享
评论 0
0
karminski-牙医
5个月前
o3 和 o4-mini 数学和编程能力得分看评分应该是头部水平的,有的项目要超过 gemini-2.5-pro (目前编程最强)
#人工智能
#编程
#数学
#技术评估
#模型对比
分享
评论 0
0
karminski-牙医
6个月前
来啦!GPT-4.1 测评! KCORES 大模型竞技场为大家带来 GPT-4.1 测评!直接说结论: Gemini-2.5-Pro 仍然领先榜首 GPT-4.1 大概与 Qwen-2.5-Max 相当, 甚至在我的测试集里面是不如 OpenAI-O3-mini-high 和 OpenAI-o1 的 GPT-4.1-mini 则与老的 DeepSeek-V3 差不多, 或者说, 是一个价格便宜的 GPT-4.5 至于 GPT-4.1-nano, 甚至打不过文心一言, 就....别用了吧 分项成绩: 20小球物理模拟测试 GPT-4.1 代码运行的质量是不错的, 但是问题是, 小球的摩擦并没有带来小球的旋转, GPT-4.1-mini 也是同样问题 而 GPT-4.1-nano 则是只剩一个小球 mandelbrot-set-meet-libai 测试 GPT-4.1 的结果主要问题是颜色弄反了, 以及图形渲染的有点大 GPT-4.1-mini 则因为没有全屏渲染扣了分数 GPT-4.1-nano 则指令遵循都有一些问题了, 包括内部全都填充了文本, 中心不正确, 性能太低等等 火星任务测试, 这个就惨不忍睹了, GPT-4.1 渲染的轨道和飞行器执行窗口完全不正确 GPT-4.1-mini 则连星球和飞船都没有 至于 GPT-4.1-nano, 抱歉, 生成的代码跑不起来, 报错了 太阳系模拟测试, 这个也很完蛋, GPT-4.1 把水星与太阳重叠了. 而 GPT-4.1-mini 得分反而比较高, 没有什么太大的失误. GPT-4.1-nano, 它.... 只画了几个圆圈就交卷了. 天梯地址: #大模型竞技场
#GPT-4.1
#Gemini-2.5-Pro
#KCORES
#大模型竞技场测评
#Qwen-2.5-Max
#OpenAI-O3-mini-high
#DeepSeek-V3
分享
评论 0
0
karminski-牙医
6个月前
无了,昨天以为 llama-4 虽然写代码不行,但是1M-10M的超长上下文还能干点别的。 结果今天 Fiction.LiveBench 结果放出了。llama-4 在 1K 上下文召回(近似, 实际上这个分数是问题回答的正确率)就掉到60%以下了,甚至 llama-4-scout 超过16K只有22%。 顺带一提哈利波特与魔法石正好是16K左右。这意味着你把这本书塞进去,然后问哈利小时候生活在卧室还是楼梯下面的储物间,llama-4-scout 只有22% 的机会能答对 (近似理解,实际上召回要再复杂点)。总之,这个分数远低于头部的平均水平....
#llama-4
#超长上下文
#Fiction.LiveBench
#哈利波特
分享
评论 0
0
karminski-牙医
6个月前
刚看到的侧面消息,Meta 的 AI 负责人已经离职了,可能是由于 llama-4 搞不出来 目前 llama-4 面临的压力我们来数一数,首先它肯定不能大于 120B,甚至最好还是维持在 70B,然后要超越 Qwen2.5-QwQ,Gemma3-27B 的水平,然后还要面临马上 Google 的新编码模型, DeepSeek-R2, Qwen-3 的冲击.... 不过我还是希望开源模型会多一些的... 去年 Llama 用的真的很爽,然后 DeepSeek-V3 一出,就没 Llama 啥事情了...
#Meta
#AI
#离职
#llama-4
#Qwen
#Gemma
#Google
#开源模型
分享
评论 0
0
karminski-牙医
6个月前
今年的确是 AI Agent 爆发年,MacOS Agent 来了!—— Cua 简单来讲这个程序可以在 Mac 上开一个虚拟机,然后提供 cua-agent 让 AI 能够操作虚拟机中的 Mac 系统。详细可以直接看视频,不但能操作系统,还能使用内部的程序比如浏览器, VSCode 等等。 到目前为止,windows,MacOS,Linux 的 Agent 都有了,操作系统 Agent 已经补齐了。 地址:
#AI Agent
#MacOS Agent
#虚拟机
#cua-agent
#操作系统
#技术进展
#自动化
#虚拟操作
分享
评论 0
0
karminski-牙医
6个月前
给大家带来全网最速 DeepSeek-V3-0324 写代码实测! 直接说结论—— 超越 DeepSeek-R1!甚至超越 Claude-3.7! 难以想象这还不是一个 Thinking 模型! DeepSeek-V3-0324 目前以 328.3 分在 KCORES 大模型竞技场排名第三 (图1),仅次于 claude-3.7-sonnet-thinking 和 claude-3.5 (没错 claude-3.5 在我们的测试下比 claude-3.7 要好一些)。 四项评测中(放不下的图我放评论区): 20 小球碰撞测试 (图2),肉眼可见的进步,之前 DeepSeek-V3 的小球挤成一团,现在物理运动模拟得非常好,仅因掉出了7边形扣了5分,项目排名第5 (图3) mandelbrot-set-meet-libai 测试 (图4),没有过多变化,分数较DeepSeek-V3 低了2分,主要还是将渲染方向搞反了以至于拖累了渲染性能,但是完成度可以看到比之前高很多。项目排名第12 (图5) 火星任务测试(图6),巨大的提升,这次星球,图例均渲染正确,甚至发射和返回窗口计算也有很大进步!项目排名第3 (图7) 九大行星模拟测试(图8),这个是史诗级提升,这是测试的25个模型中,唯一一个画了土星环的大模型!(画土星环就如同画时钟要写3,6,9,12. 画苹果要有个梗一样)项目排名第16,主要还是地球轨道周期没写对 (图9) 总体而言,DeepSeek-V3-0324 能力十分可怕,甚至这还都不是 DeepSeek-V4,更不是 DeepSeek-R2 !我现在十分期待 DeepSeek-R2 的发布了! 评测是开源的哦,地址: #大模型竞技场
#DeepSeek-V3-0324
#DeepSeek-R1
#Claude-3.7
#Thinking模型
#KCORES
#大模型竞技场
分享
评论 0
0
karminski-牙医
6个月前
才发现 GPT-SoVITS 发布新版本了,GPT-Sovits V3 TTS 407M,这个新模型提升了语音clone的效果。 另外,这个工具+模型是国产的哦,仅仅407M大小的模型,笔记本轻松运行。效果也是非常不错的。有需要的同学可以试试。 地址:
#GPT-SoVITS
#语音克隆
#国产工具
#GPT-Sovits V3
#TTS模型
分享
评论 0
0
karminski-牙医
7个月前
草,我刚看到了Gemini-2.0-Flash-Image-Generation 的最佳使用场景,真的心动了。 用 RPG Maker 的 tile set 来制作地图!我生成了几张大家看看效果。真的很好玩!
#Gemini-2.0
#Flash-Image-Generation
#RPG-Maker
#Tile-Set
#地图制作
分享
评论 0
0
karminski-牙医
7个月前
看到了个基于 Whisper.cpp 的转录工具SoftWhisper。 这个项目可以将音频/视频中的音频转为文字,最大的特点是使用了 Whisper.cpp,所以兼容性非常好,所有平台都能跑。另外性能也很不错,官方宣称可以在大约 2-3 分钟内转录 2 小时的音频。作为对比,Whisper API转录 20-30 分钟的音频需要大约 40 分钟。 地址:
#Whisper
#SoftWhisper
#音频转文字
#项目
#Whisper API
#转录工具
分享
评论 0
0
karminski-牙医
7个月前
刚刚 Google 的开源模型 Gemma 3 发布了! 几个关键点: - 这次放出了pt(预训练,Pre-Training)和 it (指令微调,Instruction Tuning)版本,默认用it即可。pt更多是给大家用来微调用的基座模型 - Gemma-3 是多模态的,可以处理图片输入 - 大小分别是1B,4B,12B,27B - 支持 128K 上下文 - MMLU-Pro 评分,Gemma 3-27B-it 得分为 67.5,接近 Gemini 1.5 Pro(75.8) - ChatbotArena 得分 133,超过了更大的 LLaMA 3 405B(1257)和 Qwen2.5-70B(1257) - GGUF量化版本已经放出了,包括Mac专用的mlx版本。地址我放在最下面 我正在测了!稍后给大家带来大家最关心的 Gemma-3-27B-it VS QwQ-32B-BF16 的测试结果! 顺便 Gemma-3-27B-it 是可以免费白嫖的哈,注册 Google AI Studio 就能用了 Unsloth GGUF量化版本地址: MLX量化版本:
#Google
#Gemma 3
#开源模型
#多模态
#预训练
#指令微调
分享
评论 0
0
karminski-牙医
7个月前
字节的AI代码编辑器 TRAE 国内版刚刚发布了! 地址:
#字节跳动
#AI代码编辑器
#Trae
#发布
#科技新闻
#国内版
分享
评论 0
0
karminski-牙医
7个月前
卧槽,我刚试了一下这个,SesameAILabs 实现了一个几乎无延迟的AI数字音频模型 ,应该是我体验过的最强的模型了。 我给大家录了个视频,大家可以听听看(一定要开声音,请忽略我的垃圾口语)。同时也建议直接访问试试,体验下延迟 (说实话别说延迟了,太快了,连气口都不给我)。 demo 我发下不仅可以顺畅聊天,甚至还有记忆,我跟他聊小米的车,结果我每次重新开始她就问我你的黄色车怎么样了..... 要说缺点,也不是没有,她太多俚语了,我听不懂.... (当然这其实是我的缺点... [苦涩][苦涩][苦涩]) 顺便,这个是开源的!分三个大小:1B,3B,8B。本地轻松运行。 在线地址: 开源项目地址(目前还在准备): #大模型竞技场
#SesameAILabs
#AI数字音频模型
#人工智能
#科技
#小米汽车
#延迟优化
分享
评论 0
0
karminski-牙医
7个月前
EA刚刚开源了红警1的源代码。license是GPLv3 地址:
#EA
#开源
#红警1
#源代码
#GPLv3
分享
评论 0
0
karminski-牙医
7个月前
DeepSeek 开源周的 5 号炸弹来啦!又是集束炸弹!3FS 和 smallpond! 我不敢相信DeepSeek甚至颠覆了存储架构...... 我上次为网络文件系统震惊还是HDFS和CEPH. 但这些都是面向磁盘的分布式文件系统. 现在一个真正意义上面向现代SSD和RDMA网络的文件系统诞生了! 飞火流星文件系统(3FS)- 一种利用现代 SSD 和 RDMA 网络全带宽的并行文件系统 这个文件系统可以在 180 节点集群中达到6.6 TiB/s 总读取吞吐量,每个客户端节点 KVCache 查找峰值吞吐量 40+ GiB。 另一个 smallpond(小池塘)是基于 3FS 的数据处理框架! 这个框架由 DuckDB 提供的高性能数据处理,可扩展以处理 PB 级数据集! 地址: 地址: #DeepSeek #deepseek开源周
#DeepSeek
#开源周
#集束炸弹
#3FS
#smallpond
#存储架构
#文件系统
#HDFS
#CEPH
#磁盘
#分布式文件系统
#SSD
#RDMA网络
#飞火流星
#并行文件系统
分享
评论 0
0
karminski-牙医
7个月前
DeepSeek 开源周的3号炸弹来啦!DeepGEMM! 这是个FP8 通用矩阵乘法库,该库用 CUDA 编写,安装时无需编译,并且内置了JIT(真的牛逼)!官方数据最大性能获得了2.7倍的提升。 要知道在早些年高性能的BLAS库可是要收费的,并且卖得很贵。 地址: #DeepSeek
#DeepSeek
#DeepGEMM
#FP8
#矩阵乘法
#CUDA
#JIT
#高性能计算
#开源
#BLAS
分享
评论 0
0
karminski-牙医
7个月前
看到个PDF识别大模型 olmOCR-7B-0225-preview 。我用发票试了一下,感觉效果还可以? 这个7B模型是BF16的,量化后估计能在4GB左右?普通电脑也能用。 模型地址: 在线测试地址: #大模型竞技场
#大模型竞技场
#PDF识别
#olmOCR
#量化模型
#BF16
分享
评论 0
0
karminski-牙医
7个月前
LLama-4 或许会在4月底之前发布? 昨天的消息,meta搞了个 llamaCon 大会,预计在4月29号召开,感觉4月底前应该就能发llama-4了?要不然感觉也没啥可con的.... 地址:
#Llama4
#Meta
#发布会
#AI
分享
评论 0
0
上一页
1
2
3
4
下一页
个人主页
通知
我的投稿
我的关注
我的拉黑
我的评论
我的点赞