时政
财经
科技
虚拟货币
其他
登录
karminski-牙医
关注
统计数据
64
文章
0
粉丝
0
获赞
132
阅读
热门文章
1
TechFlow 深潮 发布的文章:近期教育领域的变化引发了广泛讨论,我认为教育改革应该更加注重学生的个性化发展和创新能...
145
32
karminski-牙医
2个月前
来看这个神奇的项目——LMCache LMCache是一个面向大语言模型服务优化的高性能缓存系统,可以近似理解为给大模型加了个 Redis, 他通过 KV 缓存复用技术来降低首Token延迟(TTFT)和提升吞吐量。尤其是长上下文的场景优化效果非常不错。 特性如下: - 支持跨GPU/CPU/本地磁盘的多级缓存存储 - 可复用任意位置的重复文本KV缓存(不限于前缀匹配) - 实现跨服务实例的缓存共享 - 与vLLM推理引擎深度集成 - 典型场景下实现3-10倍的延迟降低 - 显著减少GPU计算资源消耗 - 支持多轮对话和RAG(检索增强生成)场景 地址:
分享
评论 0
0
karminski-牙医
2个月前
Unsloth 刚刚发布了一个强化学习小教程 教程从吃豆人游戏触发,然后简单介绍 RLHF, PPO 再到 GRPO, 然后告诉你如何用 GRPO 开始训练,是个不错的入门小文章。 地址:
#强化学习
#吃豆人
#RLHF
#PPO
#GRPO
#教程
#入门
分享
评论 0
0
karminski-牙医
2个月前
Google Gemini-2.5 系列的技术报告出了, 有很多高价值信息 比如这个,确认的确是MoE架构的。虽然大家都能猜到现在头部闭源模型是MoE的,但这个是第一次书面确认是MoE的。 另外从价格vs性能这张图来看,Gemini-2.5 系列的确在性价比上建立了一个非常好的护城河,Gemini-2.5-Pro 就是现在的 SOTA 文本模型,Gemini-2.5-Flash 则是目前则专门对着 GPT-4.1 打。 我看这周或者下周有时间给大家安排个详细解读。 技术报告地址:
Google Gemini 2.5发布引发AI模型性价比热议· 140 条信息
OpenAI新德里发布会:ChatGPT语音翻译功能引发热议· 386 条信息
#Google Gemini-2.5
#MoE架构
#性价比优势
#SOTA文本模型
#GPT-4.1
分享
评论 0
0
karminski-牙医
2个月前
MiniMax 开源周第二弹来啦!视频生成大模型—— Hailuo-02 这个模型支持文生视频,图生视频,甚至添加人物照片作为索引来生成人物在其他场景内互动的视频。 从官方放出的数据来看,目前与 Veo3, 豆包-seedance-1.0-pro 处于排行榜前三的位置。我已经正在测试了,稍后给大家带来实测视频! (这个帖子中的视频是官方的)
#MiniMax
#视频生成
#Hailuo-02
#开源模型
#排行榜
#Veo3
#豆包-seedance-1.0-pro
分享
评论 0
0
karminski-牙医
2个月前
这个新的OCR模型 MonkeyOCR-3B 好猛啊,官方评测比 MinerU 分数都高。有大量 文档 OCR 需求的同学可以下载试试了,就3B大小,很容易运行。 地址:
#OCR
#MonkeyOCR-3B
#MinerU
分享
评论 0
0
karminski-牙医
2个月前
昨天的 GCP 全球宕机事故报告出了,给大家解读下。 从 Google 的报告来看,是给全球的API管理系统下发了一个非法的配额策略(比如1小时只能请求1次这种离谱的策略),于是所有外部请求都403了(因为按照策略超请求配额了,于是403拒绝),工程师发现问题后立刻将所有接收到非法配额的API的配额系统全都绕过了,让这些API不检查配额策略直接给用户服务。 但是,但是来了,us-central1 地区的配额数据库过载了 (这里猜测工程师发现手抖应用错了策略,于是打算先恢复 us-central1 (在美国爱荷华州 Council Bluffs), 紧急情况下想都没想直接清除掉数据库中的旧策略,然后写入新策略,然后一看怎么还没生效,反而旧策略还在应用,检查后发现旧策略在缓存中,于是直接清空缓存!缓存失效,请求全部打在了数据库上,数据库就炸了......). 最终 us-central1 花费了更多时间才恢复。而其它区域则吃了us-central1的堑,使用逐步逐出缓存的方法,这也可能是为什么2小时才恢复的原因。 以上纯基于报告的猜测哈。感兴趣的同学还是请看原本的事故报告,写得是事无巨细:
#GCP
#全球宕机
#事故报告
#Google
#API管理系统
#配额策略
#403错误
分享
评论 0
0
karminski-牙医
2个月前
现在已经有多家公司发布了AI视频编辑框架了,比如Google I/O 上发布的 Flow。那么有没有AI音频编辑框架呢?来看——PlayDiffusion PlayDiffusion 这个框架可以将音频中的任意内容进行替换,比如,原始音频是 "吃了吗您",只需要打字,就能将音频修改为 "吃韭菜了吗您" 。具体效果可以看视频中的demo。非常丝滑听不到明显的过渡。 框架地址:
#AI音频编辑
#技术创新
#PlayDiffusion
#音频处理
#Google
#AI技术
#音频编辑工具
分享
评论 0
0
karminski-牙医
2个月前
看到个热别好的文章:ChatGPT 的记忆是如何工作的 文章对 ChatGPT 的记忆系统进行了逆向分析,它有双层记忆架构: 1. 保存记忆系统:当用户手动控制的时候就可以进行保存("Remember that I...") 2. 聊天历史系统:包含当前会话历史,对话历史(2周内的直接引用),用户洞察(AI自动提取的该用户的对话特征) 其中用户洞察系统贡献了80%+的性能提升和体验,核心原理是通过聚类算法自动分析用户行为模式。 这个文章特别好的地方是还提供了开源的技术实现方案,可以用现有技术 Clone 一个跟 ChatGPT 一样的私有实现。 文章地址:
#ChatGPT
#记忆系统
#人工智能
#自然语言处理
#用户体验
分享
评论 0
0
karminski-牙医
3个月前
解读下这次 DeepSeek 顺带发布的 DeepSeek-R1-0528-Distilled-Qwen3-8B 的数据: 其中 AIME'24 的确是领先的, 但是其他的数据不是领先的,所以不要期待太多。 可以得出的结论是, 用这个模型替代原本的 Qwen3-8B 非常不错, 能力有不小的提升. 但是试图替代 Qwen3-235B-A22B 是不合理的. 仅从知识量来讲, 二者激活参数差距也足够大, 22B vs 8B. 所以并不适合通用场景. 另外 GPQA Diamond 的分数反而下降了, 尽管下降不严重, 因此建议如果要投入生产, 需要评估后再使用. 以免在其他的地方出现问题. 我的建议是如果有任务嵌入的场景, 可以试试这个模型, 或者用这个模型进行再次微调, 估计会有不错的结果. #deepseek
深度学习模型升级引发AI能力大跃进,行业迎新变革· 53 条信息
#DeepSeek
#AIME'24
#DeepSeek-R1-0528-Distilled-Qwen3-8B
#模型替代
#Qwen3-8B
#Qwen3-235B-A22B
#数据分析
分享
评论 0
0
karminski-牙医
3个月前
给大家解析一下 DeepSeek-R1-0528 的官方放出的评测数据。目前 DeepSeek-R1-0528 毫无疑问是开源模型第一了, Qwen3-235B-A22B 在热座上仅座了一个月[苦涩]. 先看图1,我们可以看到编程能力和数学能力都有巨大的提升,基本都是10%左右的提升。这是一个相当猛的结果。而大家这两天放出的测试也能看到这个新版本R1直逼 OpenAI-o3 或者 Gemini-2.5-Pro 的水平. (注意我把 CodeForces 测试分数等比缩小了100x,要不然坐标轴放不下了. 不影响展示提升比例) 具体来讲, Aider-Polyglot 测试从 53 提升到了 71 分, 这个分数比 claude-opus-4 都要高, 仅次于 Gemini-2.5-Pro, claude-opus-4-thinking, o4-mini-high 这三个都是72分。 数学能力的 AIME24'25 测试均提升了10分+, 这里猜测会不会之前放出的 DeepSeek-Prover-V2 会不会也能在训练中起到不小作用 然后看通用能力, MMLU 提升有限, MMLU 是个什么测试呢? 它是个涵盖了多个学科的问答选择题, 问题类似——锅包肉用什么肉? A. 猪肉, B. 羊肉, C.牛肉, D. 鸡肉 (当然实际问题是专业性问题, 比我这个难很多). 目前基础版本的 MMLU 早就被刷爆了(接近满分), 而这次两个 MMLU 的修改版测试没有什么提升, 但这并不是模型训练出现了问题, 而是也快到这两个测试的天花板了, 导致没什么区分度. 这里的区分度可以理解为十以内加减法没有办法作为高考数学题. GPQA 也类似, 但现在也有要被刷爆的趋势了. SimpleQA (这个是OpenAI的测试集) 和 Humanity's Last Exam 这两个目前还没被刷爆, 当然这两个也特别难, 我截图了 Humanity's Last Exam 的例题 (图2) 大家可以看看, 作为一个人类, 我非常有自信这个测试的 2500 道题目全都打 0 分哈哈哈哈. 最后说下总结, 我之前是略对 DeepSeek 这么久没更新有点焦虑的, 但现在来看完全没必要, 甚至只是更新了 R1 就能达到这种水平, 都不用把 R2 掏出来. 这就让大家对 R2 期待更高. 我是真心希望 R2 能有些多模态能力的. 另外题外话, 未来大模型的测试会充满困难, 甚至做出一套完善的测试题目的速度都没大模型发布得快, 现在的头部训练水平会导致新的测试和语料放出后不过几个月就会淘汰. 在我们达到 transformer 模型的理论极限之前, 想要实现AGI, 训练语料的瓶颈可能会更快达到. 所以 R2 的突破会不会是强化学习模式上的新突破, 它的自主学习会更强, 人类的监督只能用来保证模型安全. 否则人类干预完全就是训练的负因素. 让我们拭目以待. #deepseek
深度学习模型升级引发AI能力大跃进,行业迎新变革· 53 条信息
#DeepSeek-R1-0528
#开源模型
#Qwen3-235B-A22B
#编程能力
#数学能力
#OpenAI-o3
#Gemini
分享
评论 0
0
karminski-牙医
3个月前
DeepSeek-R1-0528 模型上传了哈,不过模型卡还没填写,估计还要再等一会 地址: #DeepSeek
深度学习模型升级引发AI能力大跃进,行业迎新变革· 53 条信息
#DeepSeek
#模型上传
分享
评论 0
0
karminski-牙医
3个月前
有人已经开始尝试把大模型装到玩具上了哈哈哈 看到个博主Complex-Indication使用树莓派 Zero 2 的摄像头采集图像,然后使用wifi上传到电脑,电脑使用 SmolVLM 来识别图像,再将控制命令传回去进行控制。不过刚开始完全不能运行,不过他用200张图微调了下模型,挂了个LoRA后,机器人就能走了! 他使用的 prompt 是这样的(我翻译成了中文):根据图像选择以下一项行动:前进,向左,向右,后退。若视野被障碍物阻挡,则选择后退。若左侧有障碍物,则选择向右。若右侧有障碍物,则选择向左。若没有障碍物,则选择前进。根据图像选择以下一项行动:前进,向左,向右,后退。若视野被障碍物阻挡,则选择后退。若左侧有障碍物,则选择向右。若右侧有障碍物,则选择向左。若没有障碍物,则选择前进。
#大模型
#玩具应用
#树莓派
#图像识别
#SmolVLM
#微调模型
#机器人控制
#LoRA
#机器学习
分享
评论 0
0
karminski-牙医
3个月前
Cursor 发布的再 cursor 上最受欢迎的模型和使用频率增长最快的模型 这么看 Claude-3.5-Sonnet 真的是一代传奇, 到现在了都很能打 (图片来自 cursor 官推)
#Cursor
#Claude-3.5-Sonnet
#最受欢迎模型
#使用频率增长
分享
评论 0
0
karminski-牙医
4个月前
Qwen3 发布啦! 本次发布的模型包括: MoE 模型 Qwen3-235B-A22B (MoE, 总大小235B, 激活参数22B, 上下文128K) Qwen3-30B-A3B (MoE, 总大小30B, 激活参数3B, 上下文128K) 非 MoE 模型: Qwen3-32B Qwen3-14B Qwen3-8B Qwen3-4B Qwen3-1.7B Qwen3-0.6B 新版本的 Qwen3 特性如下: - 混合思维模式, 搭载了 thinking 开关, 可以直接手动控制要不要开启 thinking - 多语言支持, 支持 119 种语言和方言 - Agent 能力提升, 提升了编码和 Agent 方面的表现,并加强了 MCP 的支持 另外, 的 Qwen3 也上线了啦! 技术报告地址: 模型地址: Github Repo: #qwen3发布
#Qwen3
#MoE模型
#非MoE模型
#AI模型发布
分享
评论 0
0
karminski-牙医
4个月前
斯坦福发了个新的 Transformer 课程,这个课程邀请到了 Andrej Karpathy, Geoffrey Hinton, Jim Fan, Ashish Vaswani 等大佬,可以免费在线观看 地址:
#斯坦福
#Transformer课程
#Andrej Karpathy
#Geoffrey Hinton
#Jim Fan
#Ashish Vaswani
#免费视频
分享
评论 0
0
karminski-牙医
4个月前
看到个博主 tycho_brahes_nose_ 搞了个以可视化的方式展示 GPT-2(小型)模型的3D演示。 这个演示展示了输入prompt后每个注意力块的注意力权重矩阵的计算过程。注意力头在 y 轴堆叠, token 到 token 的交互在 x 轴和 z 轴上展示。非常有助于大家理解GPT模型是怎么运行的。 在线体验地址:
#GPT-2
#人工智能
#模型可视化
#Attention机制
#3D展示
分享
评论 0
0
karminski-牙医
4个月前
新的OpenAI梗图 (图片作者见右下角)
#OpenAI
#梗图
分享
评论 0
0
karminski-牙医
4个月前
o3 和 o4-mini 数学和编程能力得分看评分应该是头部水平的,有的项目要超过 gemini-2.5-pro (目前编程最强)
#人工智能
#编程
#数学
#技术评估
#模型对比
分享
评论 0
0
karminski-牙医
4个月前
来啦!GPT-4.1 测评! KCORES 大模型竞技场为大家带来 GPT-4.1 测评!直接说结论: Gemini-2.5-Pro 仍然领先榜首 GPT-4.1 大概与 Qwen-2.5-Max 相当, 甚至在我的测试集里面是不如 OpenAI-O3-mini-high 和 OpenAI-o1 的 GPT-4.1-mini 则与老的 DeepSeek-V3 差不多, 或者说, 是一个价格便宜的 GPT-4.5 至于 GPT-4.1-nano, 甚至打不过文心一言, 就....别用了吧 分项成绩: 20小球物理模拟测试 GPT-4.1 代码运行的质量是不错的, 但是问题是, 小球的摩擦并没有带来小球的旋转, GPT-4.1-mini 也是同样问题 而 GPT-4.1-nano 则是只剩一个小球 mandelbrot-set-meet-libai 测试 GPT-4.1 的结果主要问题是颜色弄反了, 以及图形渲染的有点大 GPT-4.1-mini 则因为没有全屏渲染扣了分数 GPT-4.1-nano 则指令遵循都有一些问题了, 包括内部全都填充了文本, 中心不正确, 性能太低等等 火星任务测试, 这个就惨不忍睹了, GPT-4.1 渲染的轨道和飞行器执行窗口完全不正确 GPT-4.1-mini 则连星球和飞船都没有 至于 GPT-4.1-nano, 抱歉, 生成的代码跑不起来, 报错了 太阳系模拟测试, 这个也很完蛋, GPT-4.1 把水星与太阳重叠了. 而 GPT-4.1-mini 得分反而比较高, 没有什么太大的失误. GPT-4.1-nano, 它.... 只画了几个圆圈就交卷了. 天梯地址: #大模型竞技场
#GPT-4.1
#Gemini-2.5-Pro
#KCORES
#大模型竞技场测评
#Qwen-2.5-Max
#OpenAI-O3-mini-high
#DeepSeek-V3
分享
评论 0
0
karminski-牙医
4个月前
无了,昨天以为 llama-4 虽然写代码不行,但是1M-10M的超长上下文还能干点别的。 结果今天 Fiction.LiveBench 结果放出了。llama-4 在 1K 上下文召回(近似, 实际上这个分数是问题回答的正确率)就掉到60%以下了,甚至 llama-4-scout 超过16K只有22%。 顺带一提哈利波特与魔法石正好是16K左右。这意味着你把这本书塞进去,然后问哈利小时候生活在卧室还是楼梯下面的储物间,llama-4-scout 只有22% 的机会能答对 (近似理解,实际上召回要再复杂点)。总之,这个分数远低于头部的平均水平....
#llama-4
#超长上下文
#Fiction.LiveBench
#哈利波特
分享
评论 0
0
karminski-牙医
4个月前
刚看到的侧面消息,Meta 的 AI 负责人已经离职了,可能是由于 llama-4 搞不出来 目前 llama-4 面临的压力我们来数一数,首先它肯定不能大于 120B,甚至最好还是维持在 70B,然后要超越 Qwen2.5-QwQ,Gemma3-27B 的水平,然后还要面临马上 Google 的新编码模型, DeepSeek-R2, Qwen-3 的冲击.... 不过我还是希望开源模型会多一些的... 去年 Llama 用的真的很爽,然后 DeepSeek-V3 一出,就没 Llama 啥事情了...
#Meta
#AI
#离职
#llama-4
#Qwen
#Gemma
#Google
#开源模型
分享
评论 0
0
karminski-牙医
5个月前
今年的确是 AI Agent 爆发年,MacOS Agent 来了!—— Cua 简单来讲这个程序可以在 Mac 上开一个虚拟机,然后提供 cua-agent 让 AI 能够操作虚拟机中的 Mac 系统。详细可以直接看视频,不但能操作系统,还能使用内部的程序比如浏览器, VSCode 等等。 到目前为止,windows,MacOS,Linux 的 Agent 都有了,操作系统 Agent 已经补齐了。 地址:
#AI Agent
#MacOS Agent
#虚拟机
#cua-agent
#操作系统
#技术进展
#自动化
#虚拟操作
分享
评论 0
0
karminski-牙医
5个月前
给大家带来全网最速 DeepSeek-V3-0324 写代码实测! 直接说结论—— 超越 DeepSeek-R1!甚至超越 Claude-3.7! 难以想象这还不是一个 Thinking 模型! DeepSeek-V3-0324 目前以 328.3 分在 KCORES 大模型竞技场排名第三 (图1),仅次于 claude-3.7-sonnet-thinking 和 claude-3.5 (没错 claude-3.5 在我们的测试下比 claude-3.7 要好一些)。 四项评测中(放不下的图我放评论区): 20 小球碰撞测试 (图2),肉眼可见的进步,之前 DeepSeek-V3 的小球挤成一团,现在物理运动模拟得非常好,仅因掉出了7边形扣了5分,项目排名第5 (图3) mandelbrot-set-meet-libai 测试 (图4),没有过多变化,分数较DeepSeek-V3 低了2分,主要还是将渲染方向搞反了以至于拖累了渲染性能,但是完成度可以看到比之前高很多。项目排名第12 (图5) 火星任务测试(图6),巨大的提升,这次星球,图例均渲染正确,甚至发射和返回窗口计算也有很大进步!项目排名第3 (图7) 九大行星模拟测试(图8),这个是史诗级提升,这是测试的25个模型中,唯一一个画了土星环的大模型!(画土星环就如同画时钟要写3,6,9,12. 画苹果要有个梗一样)项目排名第16,主要还是地球轨道周期没写对 (图9) 总体而言,DeepSeek-V3-0324 能力十分可怕,甚至这还都不是 DeepSeek-V4,更不是 DeepSeek-R2 !我现在十分期待 DeepSeek-R2 的发布了! 评测是开源的哦,地址: #大模型竞技场
#DeepSeek-V3-0324
#DeepSeek-R1
#Claude-3.7
#Thinking模型
#KCORES
#大模型竞技场
分享
评论 0
0
karminski-牙医
5个月前
才发现 GPT-SoVITS 发布新版本了,GPT-Sovits V3 TTS 407M,这个新模型提升了语音clone的效果。 另外,这个工具+模型是国产的哦,仅仅407M大小的模型,笔记本轻松运行。效果也是非常不错的。有需要的同学可以试试。 地址:
#GPT-SoVITS
#语音克隆
#国产工具
#GPT-Sovits V3
#TTS模型
分享
评论 0
0
karminski-牙医
5个月前
草,我刚看到了Gemini-2.0-Flash-Image-Generation 的最佳使用场景,真的心动了。 用 RPG Maker 的 tile set 来制作地图!我生成了几张大家看看效果。真的很好玩!
#Gemini-2.0
#Flash-Image-Generation
#RPG-Maker
#Tile-Set
#地图制作
分享
评论 0
0
上一页
1
2
3
下一页
个人主页
通知
我的投稿
我的关注
我的拉黑
我的评论
我的点赞