karminski-牙医发布的内容- news.news·换个方式看新闻|AI看新闻、实时追踪事件后续

karminski-牙医

统计数据

50

文章

0

粉丝

0

获赞

34

阅读

karminski-牙医

8小时前

kimi-k2 在 openrouter 的使用趋势. 真的是 moonshoot 了

karminski-牙医

3天前

再给 Grok 4 一次机会哈上个20小球测试有朋友说一个case不能代表什么, 我就问一句, 如果你写代码, 上来的第一个 case 就拉跨, 你还会再用这个模型吗? 两个 case 也拉跨呢? 汰欧蜜！撸可英买埃斯！这个是上个月我做出来的拆烟囱测试, 主要是使用 Three.js 来模拟一个三维场景, 尤其是这个烟囱完全需要大模型生成代码自己搭起来. 然后在烟囱底部设置爆炸点, 炸掉一部分砖块后, 影响烟囱的平衡导致烟囱倒塌。这个测试相对于20小球七边形测试来说, 考察物理效果其实没有 20 小球复杂, 它只有碰撞和重力, 并且都能依靠 Three.js 库的插件来实现. 所以考察项目更多聚焦于 prompt 的指令遵循和前端代码的能力以及创造性. 直接来看 Grok4 表现好的和不好的地方。好的: 倒塌的模拟不错, 模型的放置, 重力方向起码没有搞错不好的：默认的烟囱就是个已经爆炸到一半的烟囱是绷不住了，这个连上个月测试的 kimi 和 minimax 的开源模型都不至于这么抽象爆炸的粒子模拟很怪，勉强能理解那个白色的是一团烟雾光影效果特别差，对比左边的 DeepSeek 一眼就能看出来了 web 交互写得也很差, 看 DeepSeek 的按钮, 这个的按钮就是个灰色的按钮 (在画面外) 以及最重要的, 它生成其实是失败的！我反复测试3次都有代码错误。它引用库的方法有问题 (Uncaught TypeError: Failed to resolve module specifier "three". Relative references must start with either "/", "./", or "../".)，并且它自己修不好这个报错。我只能用 Claude-4-Sonnet 修了一下才能正确运行........ 结论：别用这玩意写代码, 爱咋咋地吧, 累了 #Grok4

AI编程工具激战：Claude Code、Gemini Cli崛起· 225 条信息

#AI编程：群雄逐鹿，Gemini、Grok、OpenAI混战· 311 条信息

karminski-牙医

3天前

就这??? 马斯克你认真的吗? 来看 Grok4 实测! 我原本打算用新试题, 突然转念一想, 万一Grok4 延续了 Grok3 的辉煌传统怎么办? 于是直接用了经典到都出包浆的我的那个20小球在七边形里面弹跳的实体快速来了一遍. 结果, 3次生成代码中, 2次 Grok4生成的代码甚至有语法错误. 唯一一次成功的是这个样子. 为了给不了解这个测试的朋友做对比, 我放了 DeepSeek-R1 作为参考, 注意哦，这个甚至不是 DeepSeek-R1-0528, 而是今年年初的那个老版本 R1.... 从目测来看, 大概是今年第一季度所有大模型中, 写代码能力的中间水平, 接近GPT-4o 或 kimi-1.5-long-thinking 之间. 根本不是第一梯队的水平, 更别提跟现在的 Claude-4 或者 Gemini-2.5-pro 比了..... 建议 AIME25 那个数学能力也谨慎看待, 说不定又是一个过拟合的结果. 更多测试我随后放出, 希望 Grok4 能打我的脸. 但这编程水平....呵呵. #Grok4

karminski-牙医

6天前

做RAG的朋友一定要看看 Google 这个新论文——MUVERA：让多向量检索与单向量搜索一样快大家在RAG的检索内容过程都会遇到这种情况，如果用传统搜索（例如ElasticSearch），文档 = 1 个向量 → 快速但不准确。如果用向量数据库，现代多向量搜索：文档 = 数百个向量 → 准确但极其缓慢。于是谷歌提出了 DFEs (固定维度编码) 将多个向量转换为单个固定长度的向量，同时保留相似性关系。其神奇之处在于，两个 FDE 向量之间的点积近似于多向量集合之间的原始 Chamfer 相似度。(Chamfer 相似度是啥详见文尾的文章) MUVERA 的一个关键优势是 FDE 变换是无数据的。这意味着它不依赖于特定的数据集，使其既能够抵抗数据分布的变化，又适合流式应用。此外，与模型产生的单向量不同，FDE 保证在指定的误差范围内近似真实的 Chamfer 相似度。因此，在重排序阶段之后，MUVERA 保证能够找到最相似的多向量表示。所以这个新方法能有效地提升RAG检索阶段的效率，现阶段连Python库都有了，需要的同学可以试试。论文地址： Chamfer 相似度： python库：

karminski-牙医

1周前

卧槽, 真的 SOTA 了, 正在准备做一个 PDF 转 Markdown 的领域大模型评测, 结果我发现 ChatDOC 的 OCRFlux-3B 在我测试的所有场景均达到了现阶段最理想的效果. 下面直接为大家带来实测: 场景A: 让我们直接来现阶段的 PDF 转化试金石——发票转 Markdown 可以看到, 重要的购买方, 单价, 价税合计, 销售方均十分准确, 并且没有把印章错误的当成内容. 而且形成的 Markdown 表格行列准确, 甚至还有合并单元格的表格. 以往的测试别说表格, 连内容都不一定识别准确. 更别提生成正确的 Markdown 表格了. 当然也不是没有瑕疵. 如果 OCRFlux 可以把表头和页脚也能准确识别进去就完美了. 现在生成的内容用来识别普票还是专票还是有困难的. #OCRFlux #ChatDOC #Markdown #PDF

karminski-牙医

1周前

它来了！Apple的 diffusion 大模型它来了！—— DiffuCoder-7B 总计放出了3个模型： DiffuCoder-7B-Base （基座模型） DiffuCoder-7B-Instruct （后训练模型） DiffuCoder-7B-cpGRPO （cpGRPO 优化模型）这些模型都是基于 Qwen2.5-Coder-7B 魔改的（ Qwen3-Coder 刻不容缓，Qwen 你赶紧啊）从论文上看，这次的模型仍然是研究向的，而且由于目前 diffusion 文本模型均处于研究阶段，商业水平的 diffusion 文本模型也主要用来处理快速生成文本的场景。是没有办法跟 transformer base 的头部文本模型对比的。当然，官方还是跑了分的，评分见图片。其中 BigCodeBench-Hard 只有12.8 分。作为对比，Qwen2.5-Coder-7B-Instruct 有 20.3 分，DeepSeek-R1-0528 有35.1 分。它甚至用 Qwen2.5-Coder-7B 基座模型魔改完了还没有Qwen自己后训练的 Instruct 模型分数高。所以这个模型真的只是研究向的。那么，这次 Apple 发布的 DiffuCoder 主要研究了哪些问题？如下： dLLMs 的生成模式与 AR 模型有何不同？在建模不同数据模态（如代码与数学）方面有何差异？ dLLMs 可以有多多样化，后训练应该如何设计？然后他们发现： dLLM 虽然是diffusion 的，但由于语言逻辑顺序的原因，会表现出从左到右的偏见。经过预训练后，我们表明代码任务比数学任务诱导的自回归性要弱。在 dLLMs 中，改变采样温度不仅影响采样到的标记（如在 AR 模型中那样），还会改变生成顺序本身。最后给不知道什么是 diffusion 模型的同学温习下：diffusion架构的文本模型原理基于扩散过程（噪声逐步去除）通过迭代去噪生成文本，而且迭代可以并行，因此速度很快。看上去就像刮奖一样把字刮了出来。目前 diffusion 文本模型有：Mercury ，LLaDA-8B，Dream 7B，gemini-diffusion 等等。模型地址：论文地址： repo地址：

karminski-牙医

2周前

Qwen 混合模型来啦！—— Qwen VLo Lin Junyang 前几天还说要不要搞一个 Qwen3 混合模型，结果今天就来了。 Qwen VLo 是一个多模态统一理解与生成模型。这一全新升级的模型不仅能够“看懂”世界，更能基于理解进行高质量的再创造。即，他是一个同时支持图片输入和输出的模型。目前还是预览阶段，能在 Qwen Chat 上试用。另外输出的图片有的偏黄色，所有社区也有人说是不是用GPT-image-1的输出来训练了。 blog:

karminski-牙医

2周前

看到个特别有用的工具——LocalSend 这个工具可以让你在本地网络上（同一个局域网）与任何设备分享文件和消息。目前支持 Win, MacOS, Linux, Android, iOS. 地址：

karminski-牙医

2周前

整个活，用 deepseek-r1 生成了个 AI 编辑器眼中的其它编辑器哈哈哈哈哈

karminski-牙医

3周前

看到个能持续学习的 python 文本分类器——adaptive-classifier 这个分类器最大的特点是允许动态添加新类别并从示例中持续学习，不需要大改。非常适合有不断为新文章分类并且类别还在不断增加的场景，比如你正在构建一个内容社区，或者给自己的笔记系统分类。作者上传了 pip 包, 直接 pip install adaptive-classifier 就能用地址：甚至作者还写了教程：

karminski-牙医

3周前

来看一个新的本地大模型前端，Jan 这个项目可以接 OpenAI 一致接口的任何模型，并且还能直接从 huggingFace 上下载模型用。项目使用 Tauri 构建，而且是开源的。支持 windows, MacOS, Linux 地址：

karminski-牙医

3周前

来看这个神奇的项目——LMCache LMCache是一个面向大语言模型服务优化的高性能缓存系统，可以近似理解为给大模型加了个 Redis, 他通过 KV 缓存复用技术来降低首Token延迟（TTFT）和提升吞吐量。尤其是长上下文的场景优化效果非常不错。特性如下： - 支持跨GPU/CPU/本地磁盘的多级缓存存储 - 可复用任意位置的重复文本KV缓存（不限于前缀匹配） - 实现跨服务实例的缓存共享 - 与vLLM推理引擎深度集成 - 典型场景下实现3-10倍的延迟降低 - 显著减少GPU计算资源消耗 - 支持多轮对话和RAG（检索增强生成）场景地址：

karminski-牙医

3周前

Unsloth 刚刚发布了一个强化学习小教程教程从吃豆人游戏触发，然后简单介绍 RLHF, PPO 再到 GRPO, 然后告诉你如何用 GRPO 开始训练，是个不错的入门小文章。地址:

#强化学习 #吃豆人 #RLHF #PPO #GRPO #教程 #入门

karminski-牙医

3周前

Google Gemini-2.5 系列的技术报告出了, 有很多高价值信息比如这个，确认的确是MoE架构的。虽然大家都能猜到现在头部闭源模型是MoE的，但这个是第一次书面确认是MoE的。另外从价格vs性能这张图来看，Gemini-2.5 系列的确在性价比上建立了一个非常好的护城河，Gemini-2.5-Pro 就是现在的 SOTA 文本模型，Gemini-2.5-Flash 则是目前则专门对着 GPT-4.1 打。我看这周或者下周有时间给大家安排个详细解读。技术报告地址：

Google Gemini 2.5发布引发AI模型性价比热议· 34 条信息

#AI编程：群雄逐鹿，Gemini、Grok、OpenAI混战· 311 条信息

#Google #Gemini-2.5 #MoE架构 #闭源模型 #性价比 #SOTA

karminski-牙医

3周前

MiniMax 开源周第二弹来啦！视频生成大模型—— Hailuo-02 这个模型支持文生视频，图生视频，甚至添加人物照片作为索引来生成人物在其他场景内互动的视频。从官方放出的数据来看，目前与 Veo3, 豆包-seedance-1.0-pro 处于排行榜前三的位置。我已经正在测试了，稍后给大家带来实测视频！（这个帖子中的视频是官方的）

#MiniMax #视频生成 #Hailuo-02 #开源模型 #排行榜 #Veo3 #豆包-seedance-1.0-pro

karminski-牙医

4周前

这个新的OCR模型 MonkeyOCR-3B 好猛啊，官方评测比 MinerU 分数都高。有大量文档 OCR 需求的同学可以下载试试了，就3B大小，很容易运行。地址：

#OCR #MonkeyOCR-3B #MinerU

karminski-牙医

1个月前

昨天的 GCP 全球宕机事故报告出了，给大家解读下。从 Google 的报告来看，是给全球的API管理系统下发了一个非法的配额策略（比如1小时只能请求1次这种离谱的策略），于是所有外部请求都403了（因为按照策略超请求配额了，于是403拒绝），工程师发现问题后立刻将所有接收到非法配额的API的配额系统全都绕过了，让这些API不检查配额策略直接给用户服务。但是，但是来了，us-central1 地区的配额数据库过载了（这里猜测工程师发现手抖应用错了策略，于是打算先恢复 us-central1 (在美国爱荷华州 Council Bluffs), 紧急情况下想都没想直接清除掉数据库中的旧策略，然后写入新策略，然后一看怎么还没生效，反而旧策略还在应用，检查后发现旧策略在缓存中，于是直接清空缓存！缓存失效，请求全部打在了数据库上，数据库就炸了......）. 最终 us-central1 花费了更多时间才恢复。而其它区域则吃了us-central1的堑，使用逐步逐出缓存的方法，这也可能是为什么2小时才恢复的原因。以上纯基于报告的猜测哈。感兴趣的同学还是请看原本的事故报告，写得是事无巨细：

#GCP #全球宕机 #事故报告 #Google #API管理系统 #配额策略 #403错误

karminski-牙医

1个月前

现在已经有多家公司发布了AI视频编辑框架了，比如Google I/O 上发布的 Flow。那么有没有AI音频编辑框架呢？来看——PlayDiffusion PlayDiffusion 这个框架可以将音频中的任意内容进行替换，比如，原始音频是 "吃了吗您"，只需要打字，就能将音频修改为 "吃韭菜了吗您" 。具体效果可以看视频中的demo。非常丝滑听不到明显的过渡。框架地址：

#AI音频编辑 #技术创新 #PlayDiffusion #音频处理 #Google #AI技术 #音频编辑工具

karminski-牙医

1个月前

看到个热别好的文章：ChatGPT 的记忆是如何工作的文章对 ChatGPT 的记忆系统进行了逆向分析，它有双层记忆架构： 1. 保存记忆系统：当用户手动控制的时候就可以进行保存（"Remember that I..."） 2. 聊天历史系统：包含当前会话历史，对话历史（2周内的直接引用），用户洞察（AI自动提取的该用户的对话特征）其中用户洞察系统贡献了80%+的性能提升和体验，核心原理是通过聚类算法自动分析用户行为模式。这个文章特别好的地方是还提供了开源的技术实现方案，可以用现有技术 Clone 一个跟 ChatGPT 一样的私有实现。文章地址：

#ChatGPT #记忆系统 #人工智能 #自然语言处理 #用户体验

karminski-牙医

1个月前

解读下这次 DeepSeek 顺带发布的 DeepSeek-R1-0528-Distilled-Qwen3-8B 的数据：其中 AIME'24 的确是领先的, 但是其他的数据不是领先的，所以不要期待太多。可以得出的结论是, 用这个模型替代原本的 Qwen3-8B 非常不错, 能力有不小的提升. 但是试图替代 Qwen3-235B-A22B 是不合理的. 仅从知识量来讲, 二者激活参数差距也足够大, 22B vs 8B. 所以并不适合通用场景. 另外 GPQA Diamond 的分数反而下降了, 尽管下降不严重, 因此建议如果要投入生产, 需要评估后再使用. 以免在其他的地方出现问题. 我的建议是如果有任务嵌入的场景, 可以试试这个模型, 或者用这个模型进行再次微调, 估计会有不错的结果. #deepseek

深度学习模型升级引发AI能力大跃进，行业迎新变革· 20 条信息

#DeepSeek #AIME'24 #DeepSeek-R1-0528-Distilled-Qwen3-8B #模型替代 #Qwen3-8B #Qwen3-235B-A22B #数据分析

karminski-牙医

1个月前

给大家解析一下 DeepSeek-R1-0528 的官方放出的评测数据。目前 DeepSeek-R1-0528 毫无疑问是开源模型第一了, Qwen3-235B-A22B 在热座上仅座了一个月[苦涩]. 先看图1，我们可以看到编程能力和数学能力都有巨大的提升，基本都是10%左右的提升。这是一个相当猛的结果。而大家这两天放出的测试也能看到这个新版本R1直逼 OpenAI-o3 或者 Gemini-2.5-Pro 的水平. (注意我把 CodeForces 测试分数等比缩小了100x，要不然坐标轴放不下了. 不影响展示提升比例) 具体来讲, Aider-Polyglot 测试从 53 提升到了 71 分, 这个分数比 claude-opus-4 都要高, 仅次于 Gemini-2.5-Pro, claude-opus-4-thinking, o4-mini-high 这三个都是72分。数学能力的 AIME24'25 测试均提升了10分+, 这里猜测会不会之前放出的 DeepSeek-Prover-V2 会不会也能在训练中起到不小作用然后看通用能力, MMLU 提升有限, MMLU 是个什么测试呢? 它是个涵盖了多个学科的问答选择题, 问题类似——锅包肉用什么肉? A. 猪肉, B. 羊肉, C.牛肉, D. 鸡肉 (当然实际问题是专业性问题, 比我这个难很多). 目前基础版本的 MMLU 早就被刷爆了(接近满分), 而这次两个 MMLU 的修改版测试没有什么提升, 但这并不是模型训练出现了问题, 而是也快到这两个测试的天花板了, 导致没什么区分度. 这里的区分度可以理解为十以内加减法没有办法作为高考数学题. GPQA 也类似, 但现在也有要被刷爆的趋势了. SimpleQA (这个是OpenAI的测试集) 和 Humanity's Last Exam 这两个目前还没被刷爆, 当然这两个也特别难, 我截图了 Humanity's Last Exam 的例题 (图2) 大家可以看看, 作为一个人类, 我非常有自信这个测试的 2500 道题目全都打 0 分哈哈哈哈. 最后说下总结, 我之前是略对 DeepSeek 这么久没更新有点焦虑的, 但现在来看完全没必要, 甚至只是更新了 R1 就能达到这种水平, 都不用把 R2 掏出来. 这就让大家对 R2 期待更高. 我是真心希望 R2 能有些多模态能力的. 另外题外话, 未来大模型的测试会充满困难, 甚至做出一套完善的测试题目的速度都没大模型发布得快, 现在的头部训练水平会导致新的测试和语料放出后不过几个月就会淘汰. 在我们达到 transformer 模型的理论极限之前, 想要实现AGI, 训练语料的瓶颈可能会更快达到. 所以 R2 的突破会不会是强化学习模式上的新突破, 它的自主学习会更强, 人类的监督只能用来保证模型安全. 否则人类干预完全就是训练的负因素. 让我们拭目以待. #deepseek

深度学习模型升级引发AI能力大跃进，行业迎新变革· 20 条信息

#DeepSeek-R1-0528 #开源模型 #Qwen3-235B-A22B #编程能力 #数学能力 #OpenAI-o3 #Gemini

karminski-牙医

1个月前

DeepSeek-R1-0528 模型上传了哈，不过模型卡还没填写，估计还要再等一会地址： #DeepSeek

深度学习模型升级引发AI能力大跃进，行业迎新变革· 20 条信息

#DeepSeek #模型上传

karminski-牙医

1个月前

有人已经开始尝试把大模型装到玩具上了哈哈哈看到个博主Complex-Indication使用树莓派 Zero 2 的摄像头采集图像，然后使用wifi上传到电脑，电脑使用 SmolVLM 来识别图像，再将控制命令传回去进行控制。不过刚开始完全不能运行，不过他用200张图微调了下模型，挂了个LoRA后，机器人就能走了！他使用的 prompt 是这样的（我翻译成了中文）：根据图像选择以下一项行动：前进，向左，向右，后退。若视野被障碍物阻挡，则选择后退。若左侧有障碍物，则选择向右。若右侧有障碍物，则选择向左。若没有障碍物，则选择前进。根据图像选择以下一项行动：前进，向左，向右，后退。若视野被障碍物阻挡，则选择后退。若左侧有障碍物，则选择向右。若右侧有障碍物，则选择向左。若没有障碍物，则选择前进。

#大模型 #玩具应用 #树莓派 #图像识别 #SmolVLM #微调模型 #机器人控制 #LoRA #机器学习

karminski-牙医

2个月前

Cursor 发布的再 cursor 上最受欢迎的模型和使用频率增长最快的模型这么看 Claude-3.5-Sonnet 真的是一代传奇, 到现在了都很能打 (图片来自 cursor 官推)

#Cursor #Claude-3.5-Sonnet #最受欢迎模型 #使用频率增长

karminski-牙医

2个月前

Qwen3 发布啦! 本次发布的模型包括: MoE 模型 Qwen3-235B-A22B (MoE, 总大小235B, 激活参数22B, 上下文128K) Qwen3-30B-A3B (MoE, 总大小30B, 激活参数3B, 上下文128K) 非 MoE 模型: Qwen3-32B Qwen3-14B Qwen3-8B Qwen3-4B Qwen3-1.7B Qwen3-0.6B 新版本的 Qwen3 特性如下: - 混合思维模式, 搭载了 thinking 开关, 可以直接手动控制要不要开启 thinking - 多语言支持, 支持 119 种语言和方言 - Agent 能力提升, 提升了编码和 Agent 方面的表现，并加强了 MCP 的支持另外, 的 Qwen3 也上线了啦! 技术报告地址: 模型地址: Github Repo: #qwen3发布

#Qwen3 #MoE模型 #非MoE模型 #AI模型发布