karminski-牙医

统计数据

80

文章

0

粉丝

0

获赞

364

阅读

karminski-牙医

2个月前

就在刚刚 OpenAI 发布了两个开放权重模型! 给大家带来深度解析! gpt-oss-120b 激活参数量 5.1B gpt-oss-20b 激活参数量 3.6B 两个都是 MoE 架构的推理模型. 首先, 这两个模型发布的就已经是量化版本了, 他们的 MoE 层直接用 MXFP4 精度训练的! 这意味着暂时没有办法微调这两个模型了 (现有微调框架不支持, 得等等). 然后, 大家肯定知道 OpenAI 搞了各种奇怪的命名, 比如 O3-mini-high, 这个 high 是啥? 现在答案揭晓, OpenAI 的模型是可以配置推理努力程度的. 分为三档, low, medium, high. 当然 high 模式下跑分最高, 相对的思考时间更长. Agent 功能适配得非常好, 原生针对 function call, 网页浏览, 执行 python 代码, 各种结构化输出进行了优化. 这也能从从跑分上看出来, 使用 tool 后分数均有提升. 接下来是深度内容: 首先 openrouter 上的 horzon-alpha 和 horzon-beta 肯定就不是这俩模型啦，上下文长度不同. 那么 orzon-alpha 和 horzon-beta 可能就是 GPT-5 系列了, 不过大家测过后都说效果没那么惊艳, 我之前猜测可能是 GPT-5-mini, 让我们拭目以待哈哈. 其次! 重点的重点! 这俩模型原生上下文长度只有 4K! 通过YaRN位置编码缩放和滑动窗口注意力最终扩展到 131072 token. 这意味着可能超过 4K 后召回性能会严重下降. 我给大家做了测试, 方法很简单, 把《孔乙己》塞进去, 然后问模型文中孔乙己这个名字出现了多少次? 答案是33次, 次数越接近这个值召回越准确(我们暂时忽略FP), 因为大模型要回顾上文才能统计. 可以看到 gpt-oss-120b 回答是 22 次 (66.67%), 作为对比, 我是用 GPT-o3 回答是 32 次 (96.97%)，所以建议做RAG的场景这两个模型使用要谨慎. 当然实际也建议等等 Fiction.LiveBench 的测试结果, 会比我这个快速预览准确很多. 另外, 从官方自己的跑分看, SWEBench 分数还是很高的, 达到了62.4 (claude-Sonnet-4 是68, Qwen3-Coder-480B 是67， Kimi-K2 是65.4), 但 AiderPolyglot 分数相对较低 44.4, (claude-Sonnet-4 是56.4, Qwen3-Coder-480B 是61.8， Kimi-K2 是60). 所以实际编程效果还需要测试. 稍后我马上为大家带啦写代码的实际性能测试! #openai #GPToss

#OpenAI #gpt-oss #MoE #模型量化 #上下文长度

karminski-牙医

2个月前

字节跳动刚刚发布了他们的文本 Diffusion 模型！—— Seed Diffusion Preview！给不太了解文本 Diffusion 模型的同学，大家都知道现在 transformer 大模型是一个字一个字蹦出来的，而文本Diffusion 模型则是跟图像Diffusion 模型差不多，是一个去噪过程，整段话随机出现文本最后组成所有输出。 Diffusion 文本模型的优点是巨快，字节这个有每秒 2146 个 token 的速度（应该是现在最快？）。我让它用 Rust 写冒泡排序，几乎是秒出。当然目前 Diffusion 文本模型最大的问题还是性能太低了，很难干活。目前除了 Seed Diffusion Preview以外，还有最知名的 Mercury Coder 和 Google 的 Gemini Diffusion. 一会也给大家带来简单的测评。字节的发布blog: 在线体验地址：

#字节跳动 #文本 Diffusion 模型 #Seed Diffusion Preview #AI #技术测评

karminski-牙医

2个月前

一觉醒来发现字节的扣子(coze)开源了, 看了下项目语言构成，TS+Go 基本跟当初预判得没错。话说回来，我放弃低代码的根本原因是觉得AI时代下应用的构成完全不是低代码的模式了。所以低代码再怎么+AI，也没意义。未来的后台,工作流,定时任务,SAAS都必然是AI原生的, 不会再有上来就拖拽元素搭建这种工作流程了. 开源的 github 地址：

AI编程工具激战：Claude Code、Gemini Cli崛起· 996 条信息

#字节跳动 #Coze开源 #低代码 #AI原生应用 #技术趋势

karminski-牙医

2个月前

看到个特别好用的库，可以从网页中抽取数据——llm-scraper 这个库支持OpenAI API 格式的模型，可以将网页中的内容抽取为JSON。甚至还支持流式输入。地址：

#llm-scraper #网页数据抽取 #JSON #OpenAI API #流式输入

karminski-牙医

2个月前

发现了个开源多邻国！——wordpecker-app 这个项目不但有背单词功能，而且最重要的是它使用TTS大模型，做了个语音 Agent, 你可以与 LLM 导师就你的词汇进行实际对话。练习发音，提问，并通过自然语言获得即时反馈！地址：

#开源 #多邻国 #语音Agent #TTS #LLM

karminski-牙医

3个月前

kimi-k2 在 openrouter 的使用趋势. 真的是 moonshoot 了

karminski-牙医

3个月前

再给 Grok 4 一次机会哈上个20小球测试有朋友说一个case不能代表什么, 我就问一句, 如果你写代码, 上来的第一个 case 就拉跨, 你还会再用这个模型吗? 两个 case 也拉跨呢? 汰欧蜜！撸可英买埃斯！这个是上个月我做出来的拆烟囱测试, 主要是使用 Three.js 来模拟一个三维场景, 尤其是这个烟囱完全需要大模型生成代码自己搭起来. 然后在烟囱底部设置爆炸点, 炸掉一部分砖块后, 影响烟囱的平衡导致烟囱倒塌。这个测试相对于20小球七边形测试来说, 考察物理效果其实没有 20 小球复杂, 它只有碰撞和重力, 并且都能依靠 Three.js 库的插件来实现. 所以考察项目更多聚焦于 prompt 的指令遵循和前端代码的能力以及创造性. 直接来看 Grok4 表现好的和不好的地方。好的: 倒塌的模拟不错, 模型的放置, 重力方向起码没有搞错不好的：默认的烟囱就是个已经爆炸到一半的烟囱是绷不住了，这个连上个月测试的 kimi 和 minimax 的开源模型都不至于这么抽象爆炸的粒子模拟很怪，勉强能理解那个白色的是一团烟雾光影效果特别差，对比左边的 DeepSeek 一眼就能看出来了 web 交互写得也很差, 看 DeepSeek 的按钮, 这个的按钮就是个灰色的按钮 (在画面外) 以及最重要的, 它生成其实是失败的！我反复测试3次都有代码错误。它引用库的方法有问题 (Uncaught TypeError: Failed to resolve module specifier "three". Relative references must start with either "/", "./", or "../".)，并且它自己修不好这个报错。我只能用 Claude-4-Sonnet 修了一下才能正确运行........ 结论：别用这玩意写代码, 爱咋咋地吧, 累了 #Grok4

AI编程工具激战：Claude Code、Gemini Cli崛起· 996 条信息

#Grok4 #代码生成失败 #Three.js #拆烟囱测试 #负面评价

karminski-牙医

3个月前

就这??? 马斯克你认真的吗? 来看 Grok4 实测! 我原本打算用新试题, 突然转念一想, 万一Grok4 延续了 Grok3 的辉煌传统怎么办? 于是直接用了经典到都出包浆的我的那个20小球在七边形里面弹跳的实体快速来了一遍. 结果, 3次生成代码中, 2次 Grok4生成的代码甚至有语法错误. 唯一一次成功的是这个样子. 为了给不了解这个测试的朋友做对比, 我放了 DeepSeek-R1 作为参考, 注意哦，这个甚至不是 DeepSeek-R1-0528, 而是今年年初的那个老版本 R1.... 从目测来看, 大概是今年第一季度所有大模型中, 写代码能力的中间水平, 接近GPT-4o 或 kimi-1.5-long-thinking 之间. 根本不是第一梯队的水平, 更别提跟现在的 Claude-4 或者 Gemini-2.5-pro 比了..... 建议 AIME25 那个数学能力也谨慎看待, 说不定又是一个过拟合的结果. 更多测试我随后放出, 希望 Grok4 能打我的脸. 但这编程水平....呵呵. #Grok4

karminski-牙医

3个月前

做RAG的朋友一定要看看 Google 这个新论文——MUVERA：让多向量检索与单向量搜索一样快大家在RAG的检索内容过程都会遇到这种情况，如果用传统搜索（例如ElasticSearch），文档 = 1 个向量 → 快速但不准确。如果用向量数据库，现代多向量搜索：文档 = 数百个向量 → 准确但极其缓慢。于是谷歌提出了 DFEs (固定维度编码) 将多个向量转换为单个固定长度的向量，同时保留相似性关系。其神奇之处在于，两个 FDE 向量之间的点积近似于多向量集合之间的原始 Chamfer 相似度。(Chamfer 相似度是啥详见文尾的文章) MUVERA 的一个关键优势是 FDE 变换是无数据的。这意味着它不依赖于特定的数据集，使其既能够抵抗数据分布的变化，又适合流式应用。此外，与模型产生的单向量不同，FDE 保证在指定的误差范围内近似真实的 Chamfer 相似度。因此，在重排序阶段之后，MUVERA 保证能够找到最相似的多向量表示。所以这个新方法能有效地提升RAG检索阶段的效率，现阶段连Python库都有了，需要的同学可以试试。论文地址： Chamfer 相似度： python库：

karminski-牙医

3个月前

卧槽, 真的 SOTA 了, 正在准备做一个 PDF 转 Markdown 的领域大模型评测, 结果我发现 ChatDOC 的 OCRFlux-3B 在我测试的所有场景均达到了现阶段最理想的效果. 下面直接为大家带来实测: 场景A: 让我们直接来现阶段的 PDF 转化试金石——发票转 Markdown 可以看到, 重要的购买方, 单价, 价税合计, 销售方均十分准确, 并且没有把印章错误的当成内容. 而且形成的 Markdown 表格行列准确, 甚至还有合并单元格的表格. 以往的测试别说表格, 连内容都不一定识别准确. 更别提生成正确的 Markdown 表格了. 当然也不是没有瑕疵. 如果 OCRFlux 可以把表头和页脚也能准确识别进去就完美了. 现在生成的内容用来识别普票还是专票还是有困难的. #OCRFlux #ChatDOC #Markdown #PDF

karminski-牙医

3个月前

它来了！Apple的 diffusion 大模型它来了！—— DiffuCoder-7B 总计放出了3个模型： DiffuCoder-7B-Base （基座模型） DiffuCoder-7B-Instruct （后训练模型） DiffuCoder-7B-cpGRPO （cpGRPO 优化模型）这些模型都是基于 Qwen2.5-Coder-7B 魔改的（ Qwen3-Coder 刻不容缓，Qwen 你赶紧啊）从论文上看，这次的模型仍然是研究向的，而且由于目前 diffusion 文本模型均处于研究阶段，商业水平的 diffusion 文本模型也主要用来处理快速生成文本的场景。是没有办法跟 transformer base 的头部文本模型对比的。当然，官方还是跑了分的，评分见图片。其中 BigCodeBench-Hard 只有12.8 分。作为对比，Qwen2.5-Coder-7B-Instruct 有 20.3 分，DeepSeek-R1-0528 有35.1 分。它甚至用 Qwen2.5-Coder-7B 基座模型魔改完了还没有Qwen自己后训练的 Instruct 模型分数高。所以这个模型真的只是研究向的。那么，这次 Apple 发布的 DiffuCoder 主要研究了哪些问题？如下： dLLMs 的生成模式与 AR 模型有何不同？在建模不同数据模态（如代码与数学）方面有何差异？ dLLMs 可以有多多样化，后训练应该如何设计？然后他们发现： dLLM 虽然是diffusion 的，但由于语言逻辑顺序的原因，会表现出从左到右的偏见。经过预训练后，我们表明代码任务比数学任务诱导的自回归性要弱。在 dLLMs 中，改变采样温度不仅影响采样到的标记（如在 AR 模型中那样），还会改变生成顺序本身。最后给不知道什么是 diffusion 模型的同学温习下：diffusion架构的文本模型原理基于扩散过程（噪声逐步去除）通过迭代去噪生成文本，而且迭代可以并行，因此速度很快。看上去就像刮奖一样把字刮了出来。目前 diffusion 文本模型有：Mercury ，LLaDA-8B，Dream 7B，gemini-diffusion 等等。模型地址：论文地址： repo地址：

karminski-牙医

3个月前

Qwen 混合模型来啦！—— Qwen VLo Lin Junyang 前几天还说要不要搞一个 Qwen3 混合模型，结果今天就来了。 Qwen VLo 是一个多模态统一理解与生成模型。这一全新升级的模型不仅能够“看懂”世界，更能基于理解进行高质量的再创造。即，他是一个同时支持图片输入和输出的模型。目前还是预览阶段，能在 Qwen Chat 上试用。另外输出的图片有的偏黄色，所有社区也有人说是不是用GPT-image-1的输出来训练了。 blog:

karminski-牙医

3个月前

看到个特别有用的工具——LocalSend 这个工具可以让你在本地网络上（同一个局域网）与任何设备分享文件和消息。目前支持 Win, MacOS, Linux, Android, iOS. 地址：

karminski-牙医

3个月前

整个活，用 deepseek-r1 生成了个 AI 编辑器眼中的其它编辑器哈哈哈哈哈

karminski-牙医

3个月前

看到个能持续学习的 python 文本分类器——adaptive-classifier 这个分类器最大的特点是允许动态添加新类别并从示例中持续学习，不需要大改。非常适合有不断为新文章分类并且类别还在不断增加的场景，比如你正在构建一个内容社区，或者给自己的笔记系统分类。作者上传了 pip 包, 直接 pip install adaptive-classifier 就能用地址：甚至作者还写了教程：

karminski-牙医

3个月前

来看一个新的本地大模型前端，Jan 这个项目可以接 OpenAI 一致接口的任何模型，并且还能直接从 huggingFace 上下载模型用。项目使用 Tauri 构建，而且是开源的。支持 windows, MacOS, Linux 地址：

karminski-牙医

3个月前

来看这个神奇的项目——LMCache LMCache是一个面向大语言模型服务优化的高性能缓存系统，可以近似理解为给大模型加了个 Redis, 他通过 KV 缓存复用技术来降低首Token延迟（TTFT）和提升吞吐量。尤其是长上下文的场景优化效果非常不错。特性如下： - 支持跨GPU/CPU/本地磁盘的多级缓存存储 - 可复用任意位置的重复文本KV缓存（不限于前缀匹配） - 实现跨服务实例的缓存共享 - 与vLLM推理引擎深度集成 - 典型场景下实现3-10倍的延迟降低 - 显著减少GPU计算资源消耗 - 支持多轮对话和RAG（检索增强生成）场景地址：

karminski-牙医

3个月前

Unsloth 刚刚发布了一个强化学习小教程教程从吃豆人游戏触发，然后简单介绍 RLHF, PPO 再到 GRPO, 然后告诉你如何用 GRPO 开始训练，是个不错的入门小文章。地址:

#强化学习 #吃豆人 #RLHF #PPO #GRPO #教程 #入门

karminski-牙医

3个月前

Google Gemini-2.5 系列的技术报告出了, 有很多高价值信息比如这个，确认的确是MoE架构的。虽然大家都能猜到现在头部闭源模型是MoE的，但这个是第一次书面确认是MoE的。另外从价格vs性能这张图来看，Gemini-2.5 系列的确在性价比上建立了一个非常好的护城河，Gemini-2.5-Pro 就是现在的 SOTA 文本模型，Gemini-2.5-Flash 则是目前则专门对着 GPT-4.1 打。我看这周或者下周有时间给大家安排个详细解读。技术报告地址：

Google Gemini 2.5发布引发AI模型性价比热议· 222 条信息

OpenAI新德里发布会：ChatGPT语音翻译功能引发热议· 559 条信息

#Google Gemini-2.5 #MoE架构 #性价比优势 #SOTA文本模型 #GPT-4.1

karminski-牙医

3个月前

MiniMax 开源周第二弹来啦！视频生成大模型—— Hailuo-02 这个模型支持文生视频，图生视频，甚至添加人物照片作为索引来生成人物在其他场景内互动的视频。从官方放出的数据来看，目前与 Veo3, 豆包-seedance-1.0-pro 处于排行榜前三的位置。我已经正在测试了，稍后给大家带来实测视频！（这个帖子中的视频是官方的）

#MiniMax #视频生成 #Hailuo-02 #开源模型 #排行榜 #Veo3 #豆包-seedance-1.0-pro

karminski-牙医

4个月前

这个新的OCR模型 MonkeyOCR-3B 好猛啊，官方评测比 MinerU 分数都高。有大量文档 OCR 需求的同学可以下载试试了，就3B大小，很容易运行。地址：

#OCR #MonkeyOCR-3B #MinerU

karminski-牙医

4个月前

昨天的 GCP 全球宕机事故报告出了，给大家解读下。从 Google 的报告来看，是给全球的API管理系统下发了一个非法的配额策略（比如1小时只能请求1次这种离谱的策略），于是所有外部请求都403了（因为按照策略超请求配额了，于是403拒绝），工程师发现问题后立刻将所有接收到非法配额的API的配额系统全都绕过了，让这些API不检查配额策略直接给用户服务。但是，但是来了，us-central1 地区的配额数据库过载了（这里猜测工程师发现手抖应用错了策略，于是打算先恢复 us-central1 (在美国爱荷华州 Council Bluffs), 紧急情况下想都没想直接清除掉数据库中的旧策略，然后写入新策略，然后一看怎么还没生效，反而旧策略还在应用，检查后发现旧策略在缓存中，于是直接清空缓存！缓存失效，请求全部打在了数据库上，数据库就炸了......）. 最终 us-central1 花费了更多时间才恢复。而其它区域则吃了us-central1的堑，使用逐步逐出缓存的方法，这也可能是为什么2小时才恢复的原因。以上纯基于报告的猜测哈。感兴趣的同学还是请看原本的事故报告，写得是事无巨细：

#GCP #全球宕机 #事故报告 #Google #API管理系统 #配额策略 #403错误

karminski-牙医

4个月前

现在已经有多家公司发布了AI视频编辑框架了，比如Google I/O 上发布的 Flow。那么有没有AI音频编辑框架呢？来看——PlayDiffusion PlayDiffusion 这个框架可以将音频中的任意内容进行替换，比如，原始音频是 "吃了吗您"，只需要打字，就能将音频修改为 "吃韭菜了吗您" 。具体效果可以看视频中的demo。非常丝滑听不到明显的过渡。框架地址：

#AI音频编辑 #技术创新 #PlayDiffusion #音频处理 #Google #AI技术 #音频编辑工具

karminski-牙医

4个月前

看到个热别好的文章：ChatGPT 的记忆是如何工作的文章对 ChatGPT 的记忆系统进行了逆向分析，它有双层记忆架构： 1. 保存记忆系统：当用户手动控制的时候就可以进行保存（"Remember that I..."） 2. 聊天历史系统：包含当前会话历史，对话历史（2周内的直接引用），用户洞察（AI自动提取的该用户的对话特征）其中用户洞察系统贡献了80%+的性能提升和体验，核心原理是通过聚类算法自动分析用户行为模式。这个文章特别好的地方是还提供了开源的技术实现方案，可以用现有技术 Clone 一个跟 ChatGPT 一样的私有实现。文章地址：

#ChatGPT #记忆系统 #人工智能 #自然语言处理 #用户体验

karminski-牙医

4个月前

解读下这次 DeepSeek 顺带发布的 DeepSeek-R1-0528-Distilled-Qwen3-8B 的数据：其中 AIME'24 的确是领先的, 但是其他的数据不是领先的，所以不要期待太多。可以得出的结论是, 用这个模型替代原本的 Qwen3-8B 非常不错, 能力有不小的提升. 但是试图替代 Qwen3-235B-A22B 是不合理的. 仅从知识量来讲, 二者激活参数差距也足够大, 22B vs 8B. 所以并不适合通用场景. 另外 GPQA Diamond 的分数反而下降了, 尽管下降不严重, 因此建议如果要投入生产, 需要评估后再使用. 以免在其他的地方出现问题. 我的建议是如果有任务嵌入的场景, 可以试试这个模型, 或者用这个模型进行再次微调, 估计会有不错的结果. #deepseek

深度学习模型升级引发AI能力大跃进，行业迎新变革· 106 条信息

#DeepSeek #AIME'24 #DeepSeek-R1-0528-Distilled-Qwen3-8B #模型替代 #Qwen3-8B #Qwen3-235B-A22B #数据分析