karminski-牙医2025-05-30 05:23:18解读下这次 DeepSeek 顺带发布的 DeepSeek-R1-0528-Distilled-Qwen3-8B 的数据: 其中 AIME'24 的确是领先的, 但是其他的数据不是领先的,所以不要期待太多。 可以得出的结论是, 用这个模型替代原本的 Qwen3-8B 非常不错, 能力有不小的提升. 但是试图替代 Qwen3-235B-A22B 是不合理的. 仅从知识量来讲, 二者激活参数差距预览#DeepSeek#AIME'24#DeepSeek-R1-0528-Distilled-Qwen3-8B
karminski-牙医2025-05-30 03:04:53给大家解析一下 DeepSeek-R1-0528 的官方放出的评测数据。目前 DeepSeek-R1-0528 毫无疑问是开源模型第一了, Qwen3-235B-A22B 在热座上仅座了一个月[苦涩]. 先看图1,我们可以看到编程能力和数学能力都有巨大的提升,基本都是10%左右的提升。这是一个相当猛的结果。而大家这两天放出的测试也能看到这个新版本R1直逼 OpenAI-o3 或者 Gemini-预览预览12#DeepSeek-R1-0528#开源模型#Qwen3-235B-A22B
karminski-牙医2025-05-29 02:16:02DeepSeek-R1-0528 模型上传了哈,不过模型卡还没填写,估计还要再等一会 地址: #DeepSeek 预览#DeepSeek#模型上传
karminski-牙医2025-05-26 07:25:00有人已经开始尝试把大模型装到玩具上了哈哈哈 看到个博主Complex-Indication使用树莓派 Zero 2 的摄像头采集图像,然后使用wifi上传到电脑,电脑使用 SmolVLM 来识别图像,再将控制命令传回去进行控制。不过刚开始完全不能运行,不过他用200张图微调了下模型,挂了个LoRA后,机器人就能走了! 他使用的 prompt 是这样的(我翻译成了中文):根据图像选择以下一项行动#大模型#玩具应用#树莓派
karminski-牙医2025-05-02 07:34:00Cursor 发布的再 cursor 上最受欢迎的模型和使用频率增长最快的模型 这么看 Claude-3.5-Sonnet 真的是一代传奇, 到现在了都很能打 (图片来自 cursor 官推) 预览#Cursor#Claude-3.5-Sonnet#最受欢迎模型
karminski-牙医2025-04-29 05:08:32Qwen3 发布啦! 本次发布的模型包括: MoE 模型 Qwen3-235B-A22B (MoE, 总大小235B, 激活参数22B, 上下文128K) Qwen3-30B-A3B (MoE, 总大小30B, 激活参数3B, 上下文128K) 非 MoE 模型: Qwen3-32B Qwen3-14B Qwen3-8B Qwen3-4B Qwen3-1.7B Qwen3-0.6B 新版本预览预览预览123#Qwen3#MoE模型#非MoE模型
karminski-牙医2025-04-23 09:04:00斯坦福发了个新的 Transformer 课程,这个课程邀请到了 Andrej Karpathy, Geoffrey Hinton, Jim Fan, Ashish Vaswani 等大佬,可以免费在线观看 地址: 预览预览12#斯坦福#Transformer课程
karminski-牙医2025-04-19 08:01:00看到个博主 tycho_brahes_nose_ 搞了个以可视化的方式展示 GPT-2(小型)模型的3D演示。 这个演示展示了输入prompt后每个注意力块的注意力权重矩阵的计算过程。注意力头在 y 轴堆叠, token 到 token 的交互在 x 轴和 z 轴上展示。非常有助于大家理解GPT模型是怎么运行的。 在线体验地址:#GPT-2#人工智能#模型可视化
karminski-牙医2025-04-17 01:18:43o3 和 o4-mini 数学和编程能力得分看评分应该是头部水平的,有的项目要超过 gemini-2.5-pro (目前编程最强) 预览预览预览123#人工智能#编程#数学
karminski-牙医2025-04-15 08:26:14来啦!GPT-4.1 测评! KCORES 大模型竞技场为大家带来 GPT-4.1 测评!直接说结论: Gemini-2.5-Pro 仍然领先榜首 GPT-4.1 大概与 Qwen-2.5-Max 相当, 甚至在我的测试集里面是不如 OpenAI-O3-mini-high 和 OpenAI-o1 的 GPT-4.1-mini 则与老的 DeepSeek-V3 差不多, 或者说, 是一个价格便宜预览预览预览预览1234#GPT-4.1#Gemini-2.5-Pro#KCORES
karminski-牙医2025-04-07 07:56:43无了,昨天以为 llama-4 虽然写代码不行,但是1M-10M的超长上下文还能干点别的。 结果今天 Fiction.LiveBench 结果放出了。llama-4 在 1K 上下文召回(近似, 实际上这个分数是问题回答的正确率)就掉到60%以下了,甚至 llama-4-scout 超过16K只有22%。 顺带一提哈利波特与魔法石正好是16K左右。这意味着你把这本书塞进去,然后问哈利小时候生活预览#llama-4#超长上下文#Fiction.LiveBench
karminski-牙医2025-04-04 07:37:00刚看到的侧面消息,Meta 的 AI 负责人已经离职了,可能是由于 llama-4 搞不出来 目前 llama-4 面临的压力我们来数一数,首先它肯定不能大于 120B,甚至最好还是维持在 70B,然后要超越 Qwen2.5-QwQ,Gemma3-27B 的水平,然后还要面临马上 Google 的新编码模型, DeepSeek-R2, Qwen-3 的冲击.... 不过我还是希望开源模型会多一预览#Meta#AI#离职
karminski-牙医2025-03-31 08:14:06今年的确是 AI Agent 爆发年,MacOS Agent 来了!—— Cua 简单来讲这个程序可以在 Mac 上开一个虚拟机,然后提供 cua-agent 让 AI 能够操作虚拟机中的 Mac 系统。详细可以直接看视频,不但能操作系统,还能使用内部的程序比如浏览器, VSCode 等等。 到目前为止,windows,MacOS,Linux 的 Agent 都有了,操作系统 Agent 已经#虚拟机#cua-agent#操作系统
karminski-牙医2025-03-25 00:41:54给大家带来全网最速 DeepSeek-V3-0324 写代码实测! 直接说结论—— 超越 DeepSeek-R1!甚至超越 Claude-3.7! 难以想象这还不是一个 Thinking 模型! DeepSeek-V3-0324 目前以 328.3 分在 KCORES 大模型竞技场排名第三 (图1),仅次于 claude-3.7-sonnet-thinking 和 claude-3.5 (没错预览预览预览123#DeepSeek-V3-0324#DeepSeek-R1#Claude-3.7
karminski-牙医2025-03-17 07:38:00才发现 GPT-SoVITS 发布新版本了,GPT-Sovits V3 TTS 407M,这个新模型提升了语音clone的效果。 另外,这个工具+模型是国产的哦,仅仅407M大小的模型,笔记本轻松运行。效果也是非常不错的。有需要的同学可以试试。 地址: 预览预览预览123#GPT-SoVITS#语音克隆#国产工具
karminski-牙医2025-03-15 10:02:10草,我刚看到了Gemini-2.0-Flash-Image-Generation 的最佳使用场景,真的心动了。 用 RPG Maker 的 tile set 来制作地图!我生成了几张大家看看效果。真的很好玩! 预览预览预览预览1234#Gemini-2.0#Flash-Image-Generation#RPG-Maker
karminski-牙医2025-03-14 09:02:00看到了个基于 Whisper.cpp 的转录工具SoftWhisper。 这个项目可以将音频/视频中的音频转为文字,最大的特点是使用了 Whisper.cpp,所以兼容性非常好,所有平台都能跑。另外性能也很不错,官方宣称可以在大约 2-3 分钟内转录 2 小时的音频。作为对比,Whisper API转录 20-30 分钟的音频需要大约 40 分钟。 地址:预览预览12#Whisper#SoftWhisper#音频转文字
karminski-牙医2025-03-13 05:05:47刚刚 Google 的开源模型 Gemma 3 发布了! 几个关键点: - 这次放出了pt(预训练,Pre-Training)和 it (指令微调,Instruction Tuning)版本,默认用it即可。pt更多是给大家用来微调用的基座模型 - Gemma-3 是多模态的,可以处理图片输入 - 大小分别是1B,4B,12B,27B - 支持 128K 上下文 - MMLU-Pro 评分,Ge预览预览12#Google#开源模型#多模态
karminski-牙医2025-03-02 13:29:54卧槽,我刚试了一下这个,SesameAILabs 实现了一个几乎无延迟的AI数字音频模型 ,应该是我体验过的最强的模型了。 我给大家录了个视频,大家可以听听看(一定要开声音,请忽略我的垃圾口语)。同时也建议直接访问试试,体验下延迟 (说实话别说延迟了,太快了,连气口都不给我)。 demo 我发下不仅可以顺畅聊天,甚至还有记忆,我跟他聊小米的车,结果我每次重新开始她就问我你的黄色车怎么样了...#SesameAILabs#AI数字音频模型#人工智能
karminski-牙医2025-02-28 09:10:15DeepSeek 开源周的 5 号炸弹来啦!又是集束炸弹!3FS 和 smallpond! 我不敢相信DeepSeek甚至颠覆了存储架构...... 我上次为网络文件系统震惊还是HDFS和CEPH. 但这些都是面向磁盘的分布式文件系统. 现在一个真正意义上面向现代SSD和RDMA网络的文件系统诞生了! 飞火流星文件系统(3FS)- 一种利用现代 SSD 和 RDMA 网络全带宽的并行文件系统 预览预览12#DeepSeek#开源周#集束炸弹
karminski-牙医2025-02-26 09:13:05DeepSeek 开源周的3号炸弹来啦!DeepGEMM! 这是个FP8 通用矩阵乘法库,该库用 CUDA 编写,安装时无需编译,并且内置了JIT(真的牛逼)!官方数据最大性能获得了2.7倍的提升。 要知道在早些年高性能的BLAS库可是要收费的,并且卖得很贵。 地址: #DeepSeek 预览#DeepSeek#DeepGEMM#FP8
karminski-牙医2025-02-26 07:43:52看到个PDF识别大模型 olmOCR-7B-0225-preview 。我用发票试了一下,感觉效果还可以? 这个7B模型是BF16的,量化后估计能在4GB左右?普通电脑也能用。 模型地址: 在线测试地址: #大模型竞技场 预览预览12#大模型竞技场#PDF识别#olmOCR