时政
财经
科技
虚拟货币
其他
登录
karminski-牙医
关注
统计数据
80
文章
0
粉丝
0
获赞
364
阅读
热门文章
1
TechFlow 深潮 发布的文章:近期教育领域的变化引发了广泛讨论,我认为教育改革应该更加注重学生的个性化发展和创新能...
145
32
karminski-牙医
2个月前
就在刚刚 OpenAI 发布了两个开放权重模型! 给大家带来深度解析! gpt-oss-120b 激活参数量 5.1B gpt-oss-20b 激活参数量 3.6B 两个都是 MoE 架构的推理模型. 首先, 这两个模型发布的就已经是量化版本了, 他们的 MoE 层直接用 MXFP4 精度训练的! 这意味着暂时没有办法微调这两个模型了 (现有微调框架不支持, 得等等). 然后, 大家肯定知道 OpenAI 搞了各种奇怪的命名, 比如 O3-mini-high, 这个 high 是啥? 现在答案揭晓, OpenAI 的模型是可以配置推理努力程度的. 分为三档, low, medium, high. 当然 high 模式下跑分最高, 相对的思考时间更长. Agent 功能适配得非常好, 原生针对 function call, 网页浏览, 执行 python 代码, 各种结构化输出进行了优化. 这也能从从跑分上看出来, 使用 tool 后分数均有提升. 接下来是深度内容: 首先 openrouter 上的 horzon-alpha 和 horzon-beta 肯定就不是这俩模型啦, 上下文长度不同. 那么 orzon-alpha 和 horzon-beta 可能就是 GPT-5 系列了, 不过大家测过后都说效果没那么惊艳, 我之前猜测可能是 GPT-5-mini, 让我们拭目以待哈哈. 其次! 重点的重点! 这俩模型原生上下文长度只有 4K! 通过YaRN位置编码缩放和滑动窗口注意力最终扩展到 131072 token. 这意味着可能超过 4K 后召回性能会严重下降. 我给大家做了测试, 方法很简单, 把《孔乙己》塞进去, 然后问模型文中孔乙己这个名字出现了多少次? 答案是33次, 次数越接近这个值召回越准确(我们暂时忽略FP), 因为大模型要回顾上文才能统计. 可以看到 gpt-oss-120b 回答是 22 次 (66.67%), 作为对比, 我是用 GPT-o3 回答是 32 次 (96.97%),所以建议做RAG的场景这两个模型使用要谨慎. 当然实际也建议等等 Fiction.LiveBench 的测试结果, 会比我这个快速预览准确很多. 另外, 从官方自己的跑分看, SWEBench 分数还是很高的, 达到了62.4 (claude-Sonnet-4 是68, Qwen3-Coder-480B 是67, Kimi-K2 是65.4), 但 AiderPolyglot 分数相对较低 44.4, (claude-Sonnet-4 是56.4, Qwen3-Coder-480B 是61.8, Kimi-K2 是60). 所以实际编程效果还需要测试. 稍后我马上为大家带啦写代码的实际性能测试! #openai #GPToss
#OpenAI
#gpt-oss
#MoE
#模型量化
#上下文长度
分享
评论 0
0
karminski-牙医
2个月前
字节跳动刚刚发布了他们的文本 Diffusion 模型!—— Seed Diffusion Preview! 给不太了解文本 Diffusion 模型的同学,大家都知道现在 transformer 大模型是一个字一个字蹦出来的,而文本Diffusion 模型则是跟图像Diffusion 模型差不多,是一个去噪过程,整段话随机出现文本最后组成所有输出。 Diffusion 文本模型的优点是巨快,字节这个有 每秒 2146 个 token 的速度(应该是现在最快?)。我让它用 Rust 写冒泡排序,几乎是秒出。当然目前 Diffusion 文本模型最大的问题还是性能太低了,很难干活。 目前除了 Seed Diffusion Preview以外,还有最知名的 Mercury Coder 和 Google 的 Gemini Diffusion. 一会也给大家带来简单的测评。 字节的发布blog: 在线体验地址:
#字节跳动
#文本 Diffusion 模型
#Seed Diffusion Preview
#AI
#技术测评
分享
评论 0
0
karminski-牙医
2个月前
一觉醒来发现字节的扣子(coze)开源了, 看了下项目语言构成,TS+Go 基本跟当初预判得没错。 话说回来,我放弃低代码的根本原因是觉得AI时代下应用的构成完全不是低代码的模式了。所以低代码再怎么+AI,也没意义。未来的后台,工作流,定时任务,SAAS都必然是AI原生的, 不会再有上来就拖拽元素搭建这种工作流程了. 开源的 github 地址:
AI编程工具激战:Claude Code、Gemini Cli崛起· 996 条信息
#字节跳动
#Coze开源
#低代码
#AI原生应用
#技术趋势
分享
评论 0
0
karminski-牙医
2个月前
看到个特别好用的库,可以从网页中抽取数据——llm-scraper 这个库支持OpenAI API 格式的模型,可以将网页中的内容抽取为JSON。甚至还支持流式输入。 地址:
#llm-scraper
#网页数据抽取
#JSON
#OpenAI API
#流式输入
分享
评论 0
0
karminski-牙医
2个月前
发现了个开源多邻国!——wordpecker-app 这个项目不但有背单词功能,而且最重要的是它使用TTS大模型,做了个语音 Agent, 你可以与 LLM 导师就你的词汇进行实际对话。练习发音,提问,并通过自然语言获得即时反馈! 地址:
#开源
#多邻国
#语音Agent
#TTS
#LLM
分享
评论 0
0
karminski-牙医
3个月前
kimi-k2 在 openrouter 的使用趋势. 真的是 moonshoot 了
分享
评论 0
0
karminski-牙医
3个月前
再给 Grok 4 一次机会哈 上个20小球测试有朋友说一个case不能代表什么, 我就问一句, 如果你写代码, 上来的第一个 case 就拉跨, 你还会再用这个模型吗? 两个 case 也拉跨呢? 汰欧蜜!撸可英买埃斯! 这个是上个月我做出来的拆烟囱测试, 主要是使用 Three.js 来模拟一个三维场景, 尤其是这个烟囱完全需要大模型生成代码自己搭起来. 然后在烟囱底部设置爆炸点, 炸掉一部分砖块后, 影响烟囱的平衡导致烟囱倒塌。 这个测试相对于20小球七边形测试来说, 考察物理效果其实没有 20 小球复杂, 它只有碰撞和重力, 并且都能依靠 Three.js 库的插件来实现. 所以考察项目更多聚焦于 prompt 的指令遵循和前端代码的能力以及创造性. 直接来看 Grok4 表现好的和不好的地方。 好的: 倒塌的模拟不错, 模型的放置, 重力方向起码没有搞错 不好的: 默认的烟囱就是个已经爆炸到一半的烟囱是绷不住了,这个连上个月测试的 kimi 和 minimax 的开源模型都不至于这么抽象 爆炸的粒子模拟很怪,勉强能理解那个白色的是一团烟雾 光影效果特别差,对比左边的 DeepSeek 一眼就能看出来了 web 交互写得也很差, 看 DeepSeek 的按钮, 这个的按钮就是个灰色的按钮 (在画面外) 以及最重要的, 它生成其实是失败的!我反复测试3次都有代码错误。它引用库的方法有问题 (Uncaught TypeError: Failed to resolve module specifier "three". Relative references must start with either "/", "./", or "../".),并且它自己修不好这个报错。我只能用 Claude-4-Sonnet 修了一下才能正确运行........ 结论:别用这玩意写代码, 爱咋咋地吧, 累了 #Grok4
AI编程工具激战:Claude Code、Gemini Cli崛起· 996 条信息
#Grok4
#代码生成失败
#Three.js
#拆烟囱测试
#负面评价
分享
评论 0
0
karminski-牙医
3个月前
就这??? 马斯克你认真的吗? 来看 Grok4 实测! 我原本打算用新试题, 突然转念一想, 万一Grok4 延续了 Grok3 的辉煌传统怎么办? 于是直接用了经典到都出包浆的我的那个20小球在七边形里面弹跳的实体快速来了一遍. 结果, 3次生成代码中, 2次 Grok4生成的代码甚至有语法错误. 唯一一次成功的是这个样子. 为了给不了解这个测试的朋友做对比, 我放了 DeepSeek-R1 作为参考, 注意哦,这个甚至不是 DeepSeek-R1-0528, 而是今年年初的那个老版本 R1.... 从目测来看, 大概是今年第一季度所有大模型中, 写代码能力的中间水平, 接近GPT-4o 或 kimi-1.5-long-thinking 之间. 根本不是第一梯队的水平, 更别提跟现在的 Claude-4 或者 Gemini-2.5-pro 比了..... 建议 AIME25 那个数学能力也谨慎看待, 说不定又是一个过拟合的结果. 更多测试我随后放出, 希望 Grok4 能打我的脸. 但这编程水平....呵呵. #Grok4
分享
评论 0
0
karminski-牙医
3个月前
做RAG的朋友一定要看看 Google 这个新论文——MUVERA:让多向量检索与单向量搜索一样快 大家在RAG的检索内容过程都会遇到这种情况,如果用传统搜索(例如ElasticSearch),文档 = 1 个向量 → 快速但不准确。如果用向量数据库,现代多向量搜索:文档 = 数百个向量 → 准确但极其缓慢。 于是谷歌提出了 DFEs (固定维度编码) 将多个向量转换为单个固定长度的向量,同时保留相似性关系。其神奇之处在于,两个 FDE 向量之间的点积近似于多向量集合之间的原始 Chamfer 相似度。(Chamfer 相似度是啥详见文尾的文章) MUVERA 的一个关键优势是 FDE 变换是无数据的。这意味着它不依赖于特定的数据集,使其既能够抵抗数据分布的变化,又适合流式应用。此外,与模型产生的单向量不同,FDE 保证在指定的误差范围内近似真实的 Chamfer 相似度。因此,在重排序阶段之后,MUVERA 保证能够找到最相似的多向量表示。 所以这个新方法能有效地提升RAG检索阶段的效率,现阶段连Python库都有了,需要的同学可以试试。 论文地址: Chamfer 相似度: python库:
分享
评论 0
0
karminski-牙医
3个月前
卧槽, 真的 SOTA 了, 正在准备做一个 PDF 转 Markdown 的领域大模型评测, 结果我发现 ChatDOC 的 OCRFlux-3B 在我测试的所有场景均达到了现阶段最理想的效果. 下面直接为大家带来实测: 场景A: 让我们直接来现阶段的 PDF 转化试金石——发票转 Markdown 可以看到, 重要的 购买方, 单价, 价税合计, 销售方均十分准确, 并且没有把印章错误的当成内容. 而且形成的 Markdown 表格行列准确, 甚至还有合并单元格的表格. 以往的测试别说表格, 连内容都不一定识别准确. 更别提生成正确的 Markdown 表格了. 当然也不是没有瑕疵. 如果 OCRFlux 可以把表头和页脚也能准确识别进去就完美了. 现在生成的内容用来识别普票还是专票还是有困难的. #OCRFlux #ChatDOC #Markdown #PDF
分享
评论 0
0
karminski-牙医
3个月前
它来了!Apple的 diffusion 大模型它来了!—— DiffuCoder-7B 总计放出了3个模型: DiffuCoder-7B-Base (基座模型) DiffuCoder-7B-Instruct (后训练模型) DiffuCoder-7B-cpGRPO (cpGRPO 优化模型) 这些模型都是基于 Qwen2.5-Coder-7B 魔改的 ( Qwen3-Coder 刻不容缓,Qwen 你赶紧啊) 从论文上看,这次的模型仍然是研究向的,而且由于目前 diffusion 文本模型均处于研究阶段,商业水平的 diffusion 文本模型也主要用来处理快速生成文本的场景。是没有办法跟 transformer base 的头部文本模型对比的。 当然,官方还是跑了分的,评分见图片。其中 BigCodeBench-Hard 只有12.8 分。作为对比,Qwen2.5-Coder-7B-Instruct 有 20.3 分,DeepSeek-R1-0528 有35.1 分。它甚至用 Qwen2.5-Coder-7B 基座模型魔改完了还没有Qwen自己后训练的 Instruct 模型分数高。所以这个模型真的只是研究向的。 那么,这次 Apple 发布的 DiffuCoder 主要研究了哪些问题?如下: dLLMs 的生成模式与 AR 模型有何不同? 在建模不同数据模态(如代码与数学)方面有何差异? dLLMs 可以有多多样化,后训练应该如何设计? 然后他们发现: dLLM 虽然是diffusion 的,但由于语言逻辑顺序的原因,会表现出从左到右的偏见。 经过预训练后,我们表明代码任务比数学任务诱导的自回归性要弱。 在 dLLMs 中,改变采样温度不仅影响采样到的标记(如在 AR 模型中那样),还会改变生成顺序本身。 最后给不知道什么是 diffusion 模型的同学温习下:diffusion架构的文本模型原理基于扩散过程(噪声逐步去除)通过迭代去噪生成文本,而且迭代可以并行,因此速度很快。看上去就像刮奖一样把字刮了出来。 目前 diffusion 文本模型有:Mercury ,LLaDA-8B,Dream 7B,gemini-diffusion 等等。 模型地址: 论文地址: repo地址:
分享
评论 0
0
karminski-牙医
3个月前
Qwen 混合模型来啦!—— Qwen VLo Lin Junyang 前几天还说要不要搞一个 Qwen3 混合模型,结果今天就来了。 Qwen VLo 是一个多模态统一理解与生成模型。这一全新升级的模型不仅能够“看懂”世界,更能基于理解进行高质量的再创造。即,他是一个同时支持图片输入和输出的模型。 目前还是预览阶段,能在 Qwen Chat 上试用。另外输出的图片有的偏黄色,所有社区也有人说是不是用GPT-image-1的输出来训练了。 blog:
分享
评论 0
0
karminski-牙医
3个月前
看到个特别有用的工具——LocalSend 这个工具可以让你在本地网络上(同一个局域网)与任何设备分享文件和消息。目前支持 Win, MacOS, Linux, Android, iOS. 地址:
分享
评论 0
0
karminski-牙医
3个月前
整个活,用 deepseek-r1 生成了个 AI 编辑器眼中的其它编辑器哈哈哈哈哈
分享
评论 0
0
karminski-牙医
3个月前
看到个能持续学习的 python 文本分类器——adaptive-classifier 这个分类器最大的特点是允许动态添加新类别并从示例中持续学习,不需要大改。非常适合有不断为新文章分类并且类别还在不断增加的场景,比如你正在构建一个内容社区,或者给自己的笔记系统分类。 作者上传了 pip 包, 直接 pip install adaptive-classifier 就能用 地址: 甚至作者还写了教程:
分享
评论 0
0
karminski-牙医
3个月前
来看一个新的本地大模型前端,Jan 这个项目可以接 OpenAI 一致接口的任何模型,并且还能直接从 huggingFace 上下载模型用。项目使用 Tauri 构建,而且是开源的。支持 windows, MacOS, Linux 地址:
分享
评论 0
0
karminski-牙医
3个月前
来看这个神奇的项目——LMCache LMCache是一个面向大语言模型服务优化的高性能缓存系统,可以近似理解为给大模型加了个 Redis, 他通过 KV 缓存复用技术来降低首Token延迟(TTFT)和提升吞吐量。尤其是长上下文的场景优化效果非常不错。 特性如下: - 支持跨GPU/CPU/本地磁盘的多级缓存存储 - 可复用任意位置的重复文本KV缓存(不限于前缀匹配) - 实现跨服务实例的缓存共享 - 与vLLM推理引擎深度集成 - 典型场景下实现3-10倍的延迟降低 - 显著减少GPU计算资源消耗 - 支持多轮对话和RAG(检索增强生成)场景 地址:
分享
评论 0
0
karminski-牙医
3个月前
Unsloth 刚刚发布了一个强化学习小教程 教程从吃豆人游戏触发,然后简单介绍 RLHF, PPO 再到 GRPO, 然后告诉你如何用 GRPO 开始训练,是个不错的入门小文章。 地址:
#强化学习
#吃豆人
#RLHF
#PPO
#GRPO
#教程
#入门
分享
评论 0
0
karminski-牙医
3个月前
Google Gemini-2.5 系列的技术报告出了, 有很多高价值信息 比如这个,确认的确是MoE架构的。虽然大家都能猜到现在头部闭源模型是MoE的,但这个是第一次书面确认是MoE的。 另外从价格vs性能这张图来看,Gemini-2.5 系列的确在性价比上建立了一个非常好的护城河,Gemini-2.5-Pro 就是现在的 SOTA 文本模型,Gemini-2.5-Flash 则是目前则专门对着 GPT-4.1 打。 我看这周或者下周有时间给大家安排个详细解读。 技术报告地址:
Google Gemini 2.5发布引发AI模型性价比热议· 222 条信息
OpenAI新德里发布会:ChatGPT语音翻译功能引发热议· 559 条信息
#Google Gemini-2.5
#MoE架构
#性价比优势
#SOTA文本模型
#GPT-4.1
分享
评论 0
0
karminski-牙医
3个月前
MiniMax 开源周第二弹来啦!视频生成大模型—— Hailuo-02 这个模型支持文生视频,图生视频,甚至添加人物照片作为索引来生成人物在其他场景内互动的视频。 从官方放出的数据来看,目前与 Veo3, 豆包-seedance-1.0-pro 处于排行榜前三的位置。我已经正在测试了,稍后给大家带来实测视频! (这个帖子中的视频是官方的)
#MiniMax
#视频生成
#Hailuo-02
#开源模型
#排行榜
#Veo3
#豆包-seedance-1.0-pro
分享
评论 0
0
karminski-牙医
4个月前
这个新的OCR模型 MonkeyOCR-3B 好猛啊,官方评测比 MinerU 分数都高。有大量 文档 OCR 需求的同学可以下载试试了,就3B大小,很容易运行。 地址:
#OCR
#MonkeyOCR-3B
#MinerU
分享
评论 0
0
karminski-牙医
4个月前
昨天的 GCP 全球宕机事故报告出了,给大家解读下。 从 Google 的报告来看,是给全球的API管理系统下发了一个非法的配额策略(比如1小时只能请求1次这种离谱的策略),于是所有外部请求都403了(因为按照策略超请求配额了,于是403拒绝),工程师发现问题后立刻将所有接收到非法配额的API的配额系统全都绕过了,让这些API不检查配额策略直接给用户服务。 但是,但是来了,us-central1 地区的配额数据库过载了 (这里猜测工程师发现手抖应用错了策略,于是打算先恢复 us-central1 (在美国爱荷华州 Council Bluffs), 紧急情况下想都没想直接清除掉数据库中的旧策略,然后写入新策略,然后一看怎么还没生效,反而旧策略还在应用,检查后发现旧策略在缓存中,于是直接清空缓存!缓存失效,请求全部打在了数据库上,数据库就炸了......). 最终 us-central1 花费了更多时间才恢复。而其它区域则吃了us-central1的堑,使用逐步逐出缓存的方法,这也可能是为什么2小时才恢复的原因。 以上纯基于报告的猜测哈。感兴趣的同学还是请看原本的事故报告,写得是事无巨细:
#GCP
#全球宕机
#事故报告
#Google
#API管理系统
#配额策略
#403错误
分享
评论 0
0
karminski-牙医
4个月前
现在已经有多家公司发布了AI视频编辑框架了,比如Google I/O 上发布的 Flow。那么有没有AI音频编辑框架呢?来看——PlayDiffusion PlayDiffusion 这个框架可以将音频中的任意内容进行替换,比如,原始音频是 "吃了吗您",只需要打字,就能将音频修改为 "吃韭菜了吗您" 。具体效果可以看视频中的demo。非常丝滑听不到明显的过渡。 框架地址:
#AI音频编辑
#技术创新
#PlayDiffusion
#音频处理
#Google
#AI技术
#音频编辑工具
分享
评论 0
0
karminski-牙医
4个月前
看到个热别好的文章:ChatGPT 的记忆是如何工作的 文章对 ChatGPT 的记忆系统进行了逆向分析,它有双层记忆架构: 1. 保存记忆系统:当用户手动控制的时候就可以进行保存("Remember that I...") 2. 聊天历史系统:包含当前会话历史,对话历史(2周内的直接引用),用户洞察(AI自动提取的该用户的对话特征) 其中用户洞察系统贡献了80%+的性能提升和体验,核心原理是通过聚类算法自动分析用户行为模式。 这个文章特别好的地方是还提供了开源的技术实现方案,可以用现有技术 Clone 一个跟 ChatGPT 一样的私有实现。 文章地址:
#ChatGPT
#记忆系统
#人工智能
#自然语言处理
#用户体验
分享
评论 0
0
karminski-牙医
4个月前
解读下这次 DeepSeek 顺带发布的 DeepSeek-R1-0528-Distilled-Qwen3-8B 的数据: 其中 AIME'24 的确是领先的, 但是其他的数据不是领先的,所以不要期待太多。 可以得出的结论是, 用这个模型替代原本的 Qwen3-8B 非常不错, 能力有不小的提升. 但是试图替代 Qwen3-235B-A22B 是不合理的. 仅从知识量来讲, 二者激活参数差距也足够大, 22B vs 8B. 所以并不适合通用场景. 另外 GPQA Diamond 的分数反而下降了, 尽管下降不严重, 因此建议如果要投入生产, 需要评估后再使用. 以免在其他的地方出现问题. 我的建议是如果有任务嵌入的场景, 可以试试这个模型, 或者用这个模型进行再次微调, 估计会有不错的结果. #deepseek
深度学习模型升级引发AI能力大跃进,行业迎新变革· 106 条信息
#DeepSeek
#AIME'24
#DeepSeek-R1-0528-Distilled-Qwen3-8B
#模型替代
#Qwen3-8B
#Qwen3-235B-A22B
#数据分析
分享
评论 0
0
上一页
1
2
3
4
下一页
个人主页
通知
我的投稿
我的关注
我的拉黑
我的评论
我的点赞