时政
财经
科技
虚拟货币
其他
登录
karminski-牙医
关注
统计数据
66
文章
0
粉丝
0
获赞
144
阅读
热门文章
1
TechFlow 深潮 发布的文章:近期教育领域的变化引发了广泛讨论,我认为教育改革应该更加注重学生的个性化发展和创新能...
145
32
karminski-牙医
1天前
阶跃刚刚发布了一个开源的端到端的音频模型(输入是音频,输出也是音频,可以实现对话)。 帮大家整理了下模型性能。目前来看跟GPT-4o打得有来有回, 其中翻译和ASR(自动语音识别)性能是领先的,对话能力差一点,稍后为大家带来评测! 模型地址:
OpenAI新德里发布会:ChatGPT语音翻译功能引发热议· 385 条信息
#开源
#音频模型
#Step
#GPT-4o
#语音识别
分享
评论 0
0
karminski-牙医
2天前
波士顿动力的机器狗怎么还在翻跟头,这边的狗可都驼250kg杠铃片准备去给对面开席了(宇树的宣传片驼了250kg杠铃片下楼梯)..... (视频为波士顿动力的最新宣传片,不过侧面翻跟头这个的确很丝滑)
#波士顿动力
#机器狗
#宇树
#杠铃片
#技术对比
分享
评论 0
0
karminski-牙医
4天前
微软这浓眉大眼的怎么还学 Llama4? 给大家带来微软刚出的TTS(文本转语音)大模型 VibeVoice-1.5B 实测! 这个模型最大的突破是同时支持4个说话人按顺序说话. 您猜怎么着? 真垃圾啊... 不多说了直接看视频效果. 说实话这个结果已经不是失望是绝望了... 问题包括说话者切换会导致声音完全变了一个人, 语音合成效果太差, 有幻觉, 生成会跳跃. 甚至选了非BGM的模型, 生成的语音还自带乱七八糟的BGM. 完全达不到宣传的效果. 我的建议是别用啊, 纯纯浪费生命. 另外,官方space的代码是使用CPU推理的,可以修改为GPU推理,照着我这个改就行了, 我用了一个24G显存的NVIDIA L4,实测大概使用10G左右显存。生成速度基本是一秒一个字. 开 flash_attention 会快很多. 模型地址:
#微软
#VibeVoice-1.5B
#TTS
#语音合成-差评
#L4 GPU推理
分享
评论 0
0
karminski-牙医
1周前
Wan 2.2 4K 超高清工作流! ComfyUI 环境下 使用 Wan 2.2 搭配 Ultimate SD Upscaling, 渲染得视频是 2K的,但是 Ultimate SD Upscaling 本身支持 4K 甚至 8K,只需要你有一块超强的显卡即可。 工作流可以关注这个帖子:
#Wan 2.2
#4K 超高清
#comfyUI
#Ultimate SD Upscaling
#视频渲染
分享
评论 0
0
karminski-牙医
1周前
同意,其实我觉得就是简单的信息论问题,prompt再压缩,真正的用来表示精确的逻辑不会比代码简单多少的。现在之所以能实现"帮我写个FlappyBird游戏"能转换为几千行代码, 本质还是并不能精确控制游戏的细节, 只是用了大模型的内部"const"而已.
#信息论
#prompt压缩
#大模型
#代码
#FlappyBird游戏
分享
评论 0
0
karminski-牙医
1周前
GPT-OSS-20B 比 GPT-OSS-120B 好? 还记得OpenAI的开放权重模型吗?最新的论文评估得到结论 GPT-OSS-120B 在编程方面的确不如 GPT-OSS-20B. 跟我之前测试的结论相同. 论文中指出 HumanEval 和 MMLU 这两个测试中 GPT-OSS-20B 表现均比 120B 效果好。而我自己的评测中,20B编程表现好的方面在于稳定,即基本每次生成都能得到表现一致的效果,当然不是说20B足够好,但是它如果出问题,问题也是稳定的,这样容易修改一些。而120B会在各种地方出问题。 付我上次测试的结论: OSS-120B 和 20B 我觉得有点摸不到头脑, 甚至 20B 生成起来我感觉代码更稳定? OSS-120B 随机性非常大, 在这个测试里面 OSS-120B 甚至反复抽卡8次, 都没有 OSS-20B 抽卡 2 次的效果好. 这里我的猜测是 120B 每次激活专家量很少, 而总专家数量又多, 导致每 token 随机到相同专家的概率会特别小, 进而表现不是那么稳定. 而 20B 则好一些, 4/128 VS 4/32 专家. 我一会也会再测下, 看我的猜测对不对. 论文地址:
#GPT-OSS-20B
#GPT-OSS-120B
#模型评估
#编程能力
#稳定性
分享
评论 0
0
karminski-牙医
1周前
我的认知是, prompt 是给人看的,而代码可能会进化得更适合大模型看。
AI编程工具激战:Claude Code、Gemini Cli崛起· 623 条信息
#Prompt
#代码
#大模型
#认知
#进化
分享
评论 0
0
karminski-牙医
1周前
刚发布的 DeepSeek-V3.1-Base 写代码实测来啦! 直接说结论, 比 GPT-5 好! 我的体感是马上就能追平 Claude-Sonnet-4. 这次三组测试中, DeepSeek 除了大象牙膏的那个 OrbitControls 前面没有加 THREE 的包名称以外, 其余测试均能一次性通过, 相比较 GPT-5 在上期测试中出现了各种错误. DeepSeek-V3.1-Base 可以用流畅来形容. 不过测试出来 DeepSeek-V3.1-Base 最大的问题是美学还是差点意思, 生成的三角烧瓶只能用抽象来形容, 并且6次生成中没有一次能看的. 网页制作的样式和审美也略单一. 以上就是本期评测, 关注我带你看全网嗯快嗯专业的大模型评测. #DeepSeek #DeepSeekV31
深度学习模型升级引发AI能力大跃进,行业迎新变革· 53 条信息
#DeepSeek-V3.1-Base
#代码生成
#GPT-5
#大模型评测
#美学不足
分享
评论 0
0
karminski-牙医
3周前
GPT-5 召回的确牛逼,所以接 RAG 目前应该是最佳选择。 Fiction.LiveBench 测试数据,192K上下文仍然有 87.5%, 妥妥 SOTA 了. 奥特曼其实应该把这个数据拿出来炫的,从o3开始其实 OpenAI 系列模型的召回能力都是可圈可点的。 #GPT5
OpenAI新德里发布会:ChatGPT语音翻译功能引发热议· 385 条信息
#GPT-5
#RAG
#OpenAI
#奥特曼
#SOTA
分享
评论 0
0
karminski-牙医
3周前
OpenAI 和 Anthropic 新出的模型写代码实测来啦! 本次测试包括: OpenAI-OSS-120B OpenAI-OSS-20B Claude-Opus-4.1 Gemini-2.5-pro (凑数的) Opus 放这里去比的确不讲武德. 所以主要拿 Gemini-2.5-pro 跟它对打. 我主要的意思是告诉大家, 不要用不太行的模型写代码. 只会浪费你的时间去调试并且积累屎山 (x). 每个模型各运行至少6次, 取最好结果给大家录屏. 从测试结果看 Claude-Opus-4.1 出乎意料的稳. 他对空间理解远超任何模型, 说A放在B上面就能做到A放在B上面. 其他模型得不断抽卡才能偶尔抽到. 不知道 Anthropic 是怎么做到的. 牛逼. 要不是实在是太贵了, 真的建议用它来写代码. 我测试了6次就干进去了2刀. OSS-120B 和 20B 我觉得有点摸不到头脑, 甚至 20B 生成起来我感觉代码更稳定? OSS-120B 随机性非常大, 在这个测试里面 OSS-120B 甚至反复抽卡8次, 都没有 OSS-20B 抽卡 2 次的效果好. 这里我的猜测是 120B 每次激活专家量很少, 而总专家数量又多, 导致每 token 随机到相同专家的概率会特别小, 进而表现不是那么稳定. 而 20B 则好一些, 4/128 VS 4/32 专家. 我一会也会再测下, 看我的猜测对不对. 总之这次快速测试结论如下: Claude-Opus-4.1 > Gemini-2.5-pro > OpenAI-OSS-20B >? (存疑) OpenAI-OSS-120B OpenAI-OSS-120B 用起来要谨慎, 写代码特别不稳定. OpenAI-OSS-20B 在这个参数量大小下反而挺好. #opus41 #oss120b #OpenAIOSS
Google Gemini 2.5发布引发AI模型性价比热议· 140 条信息
OpenAI新德里发布会:ChatGPT语音翻译功能引发热议· 385 条信息
#代码模型测评
#Claude-Opus-4.1 稳定
#OpenAI-OSS-120B 不稳定
#Gemini-2.5-pro 中等
#Anthropic 模型空间理解强
分享
评论 0
0
karminski-牙医
3周前
GPT-OSS 模型的 EQBench 结果出了, 基本就是 GPT-4.1-mini 和 GPT-4.1-nano 的水平. 长篇创意写作基本接近 Qwen3-30B-A3B 的水平。gpt-oss-120b 120B VS 30B。写作方面好不好用不言而喻了。更何况有幻觉大师 DeepSeek-R1 在前面。 我比较好奇的是除了给程序API调用,真的有人在工作中用 GPT-4.1-mini 吗?
#GPT-OSS模型
#EQBench结果
#GPT-4.1-mini
#Qwen3-30B-A3B
#DeepSeek-R1
分享
评论 0
0
karminski-牙医
3周前
就在刚刚 OpenAI 发布了两个开放权重模型! 给大家带来深度解析! gpt-oss-120b 激活参数量 5.1B gpt-oss-20b 激活参数量 3.6B 两个都是 MoE 架构的推理模型. 首先, 这两个模型发布的就已经是量化版本了, 他们的 MoE 层直接用 MXFP4 精度训练的! 这意味着暂时没有办法微调这两个模型了 (现有微调框架不支持, 得等等). 然后, 大家肯定知道 OpenAI 搞了各种奇怪的命名, 比如 O3-mini-high, 这个 high 是啥? 现在答案揭晓, OpenAI 的模型是可以配置推理努力程度的. 分为三档, low, medium, high. 当然 high 模式下跑分最高, 相对的思考时间更长. Agent 功能适配得非常好, 原生针对 function call, 网页浏览, 执行 python 代码, 各种结构化输出进行了优化. 这也能从从跑分上看出来, 使用 tool 后分数均有提升. 接下来是深度内容: 首先 openrouter 上的 horzon-alpha 和 horzon-beta 肯定就不是这俩模型啦, 上下文长度不同. 那么 orzon-alpha 和 horzon-beta 可能就是 GPT-5 系列了, 不过大家测过后都说效果没那么惊艳, 我之前猜测可能是 GPT-5-mini, 让我们拭目以待哈哈. 其次! 重点的重点! 这俩模型原生上下文长度只有 4K! 通过YaRN位置编码缩放和滑动窗口注意力最终扩展到 131072 token. 这意味着可能超过 4K 后召回性能会严重下降. 我给大家做了测试, 方法很简单, 把《孔乙己》塞进去, 然后问模型文中孔乙己这个名字出现了多少次? 答案是33次, 次数越接近这个值召回越准确(我们暂时忽略FP), 因为大模型要回顾上文才能统计. 可以看到 gpt-oss-120b 回答是 22 次 (66.67%), 作为对比, 我是用 GPT-o3 回答是 32 次 (96.97%),所以建议做RAG的场景这两个模型使用要谨慎. 当然实际也建议等等 Fiction.LiveBench 的测试结果, 会比我这个快速预览准确很多. 另外, 从官方自己的跑分看, SWEBench 分数还是很高的, 达到了62.4 (claude-Sonnet-4 是68, Qwen3-Coder-480B 是67, Kimi-K2 是65.4), 但 AiderPolyglot 分数相对较低 44.4, (claude-Sonnet-4 是56.4, Qwen3-Coder-480B 是61.8, Kimi-K2 是60). 所以实际编程效果还需要测试. 稍后我马上为大家带啦写代码的实际性能测试! #openai #GPToss
#OpenAI
#gpt-oss
#MoE
#模型量化
#上下文长度
分享
评论 0
0
karminski-牙医
4周前
字节跳动刚刚发布了他们的文本 Diffusion 模型!—— Seed Diffusion Preview! 给不太了解文本 Diffusion 模型的同学,大家都知道现在 transformer 大模型是一个字一个字蹦出来的,而文本Diffusion 模型则是跟图像Diffusion 模型差不多,是一个去噪过程,整段话随机出现文本最后组成所有输出。 Diffusion 文本模型的优点是巨快,字节这个有 每秒 2146 个 token 的速度(应该是现在最快?)。我让它用 Rust 写冒泡排序,几乎是秒出。当然目前 Diffusion 文本模型最大的问题还是性能太低了,很难干活。 目前除了 Seed Diffusion Preview以外,还有最知名的 Mercury Coder 和 Google 的 Gemini Diffusion. 一会也给大家带来简单的测评。 字节的发布blog: 在线体验地址:
#字节跳动
#文本 Diffusion 模型
#Seed Diffusion Preview
#AI
#技术测评
分享
评论 0
0
karminski-牙医
1个月前
一觉醒来发现字节的扣子(coze)开源了, 看了下项目语言构成,TS+Go 基本跟当初预判得没错。 话说回来,我放弃低代码的根本原因是觉得AI时代下应用的构成完全不是低代码的模式了。所以低代码再怎么+AI,也没意义。未来的后台,工作流,定时任务,SAAS都必然是AI原生的, 不会再有上来就拖拽元素搭建这种工作流程了. 开源的 github 地址:
AI编程工具激战:Claude Code、Gemini Cli崛起· 623 条信息
#字节跳动
#Coze开源
#低代码
#AI原生应用
#技术趋势
分享
评论 0
0
karminski-牙医
1个月前
看到个特别好用的库,可以从网页中抽取数据——llm-scraper 这个库支持OpenAI API 格式的模型,可以将网页中的内容抽取为JSON。甚至还支持流式输入。 地址:
#llm-scraper
#网页数据抽取
#JSON
#OpenAI API
#流式输入
分享
评论 0
0
karminski-牙医
1个月前
发现了个开源多邻国!——wordpecker-app 这个项目不但有背单词功能,而且最重要的是它使用TTS大模型,做了个语音 Agent, 你可以与 LLM 导师就你的词汇进行实际对话。练习发音,提问,并通过自然语言获得即时反馈! 地址:
#开源
#多邻国
#语音Agent
#TTS
#LLM
分享
评论 0
0
karminski-牙医
1个月前
kimi-k2 在 openrouter 的使用趋势. 真的是 moonshoot 了
分享
评论 0
0
karminski-牙医
1个月前
再给 Grok 4 一次机会哈 上个20小球测试有朋友说一个case不能代表什么, 我就问一句, 如果你写代码, 上来的第一个 case 就拉跨, 你还会再用这个模型吗? 两个 case 也拉跨呢? 汰欧蜜!撸可英买埃斯! 这个是上个月我做出来的拆烟囱测试, 主要是使用 Three.js 来模拟一个三维场景, 尤其是这个烟囱完全需要大模型生成代码自己搭起来. 然后在烟囱底部设置爆炸点, 炸掉一部分砖块后, 影响烟囱的平衡导致烟囱倒塌。 这个测试相对于20小球七边形测试来说, 考察物理效果其实没有 20 小球复杂, 它只有碰撞和重力, 并且都能依靠 Three.js 库的插件来实现. 所以考察项目更多聚焦于 prompt 的指令遵循和前端代码的能力以及创造性. 直接来看 Grok4 表现好的和不好的地方。 好的: 倒塌的模拟不错, 模型的放置, 重力方向起码没有搞错 不好的: 默认的烟囱就是个已经爆炸到一半的烟囱是绷不住了,这个连上个月测试的 kimi 和 minimax 的开源模型都不至于这么抽象 爆炸的粒子模拟很怪,勉强能理解那个白色的是一团烟雾 光影效果特别差,对比左边的 DeepSeek 一眼就能看出来了 web 交互写得也很差, 看 DeepSeek 的按钮, 这个的按钮就是个灰色的按钮 (在画面外) 以及最重要的, 它生成其实是失败的!我反复测试3次都有代码错误。它引用库的方法有问题 (Uncaught TypeError: Failed to resolve module specifier "three". Relative references must start with either "/", "./", or "../".),并且它自己修不好这个报错。我只能用 Claude-4-Sonnet 修了一下才能正确运行........ 结论:别用这玩意写代码, 爱咋咋地吧, 累了 #Grok4
AI编程工具激战:Claude Code、Gemini Cli崛起· 623 条信息
#Grok4
#代码生成失败
#Three.js
#拆烟囱测试
#负面评价
分享
评论 0
0
karminski-牙医
1个月前
就这??? 马斯克你认真的吗? 来看 Grok4 实测! 我原本打算用新试题, 突然转念一想, 万一Grok4 延续了 Grok3 的辉煌传统怎么办? 于是直接用了经典到都出包浆的我的那个20小球在七边形里面弹跳的实体快速来了一遍. 结果, 3次生成代码中, 2次 Grok4生成的代码甚至有语法错误. 唯一一次成功的是这个样子. 为了给不了解这个测试的朋友做对比, 我放了 DeepSeek-R1 作为参考, 注意哦,这个甚至不是 DeepSeek-R1-0528, 而是今年年初的那个老版本 R1.... 从目测来看, 大概是今年第一季度所有大模型中, 写代码能力的中间水平, 接近GPT-4o 或 kimi-1.5-long-thinking 之间. 根本不是第一梯队的水平, 更别提跟现在的 Claude-4 或者 Gemini-2.5-pro 比了..... 建议 AIME25 那个数学能力也谨慎看待, 说不定又是一个过拟合的结果. 更多测试我随后放出, 希望 Grok4 能打我的脸. 但这编程水平....呵呵. #Grok4
分享
评论 0
0
karminski-牙医
1个月前
做RAG的朋友一定要看看 Google 这个新论文——MUVERA:让多向量检索与单向量搜索一样快 大家在RAG的检索内容过程都会遇到这种情况,如果用传统搜索(例如ElasticSearch),文档 = 1 个向量 → 快速但不准确。如果用向量数据库,现代多向量搜索:文档 = 数百个向量 → 准确但极其缓慢。 于是谷歌提出了 DFEs (固定维度编码) 将多个向量转换为单个固定长度的向量,同时保留相似性关系。其神奇之处在于,两个 FDE 向量之间的点积近似于多向量集合之间的原始 Chamfer 相似度。(Chamfer 相似度是啥详见文尾的文章) MUVERA 的一个关键优势是 FDE 变换是无数据的。这意味着它不依赖于特定的数据集,使其既能够抵抗数据分布的变化,又适合流式应用。此外,与模型产生的单向量不同,FDE 保证在指定的误差范围内近似真实的 Chamfer 相似度。因此,在重排序阶段之后,MUVERA 保证能够找到最相似的多向量表示。 所以这个新方法能有效地提升RAG检索阶段的效率,现阶段连Python库都有了,需要的同学可以试试。 论文地址: Chamfer 相似度: python库:
分享
评论 0
0
karminski-牙医
1个月前
卧槽, 真的 SOTA 了, 正在准备做一个 PDF 转 Markdown 的领域大模型评测, 结果我发现 ChatDOC 的 OCRFlux-3B 在我测试的所有场景均达到了现阶段最理想的效果. 下面直接为大家带来实测: 场景A: 让我们直接来现阶段的 PDF 转化试金石——发票转 Markdown 可以看到, 重要的 购买方, 单价, 价税合计, 销售方均十分准确, 并且没有把印章错误的当成内容. 而且形成的 Markdown 表格行列准确, 甚至还有合并单元格的表格. 以往的测试别说表格, 连内容都不一定识别准确. 更别提生成正确的 Markdown 表格了. 当然也不是没有瑕疵. 如果 OCRFlux 可以把表头和页脚也能准确识别进去就完美了. 现在生成的内容用来识别普票还是专票还是有困难的. #OCRFlux #ChatDOC #Markdown #PDF
分享
评论 0
0
karminski-牙医
1个月前
它来了!Apple的 diffusion 大模型它来了!—— DiffuCoder-7B 总计放出了3个模型: DiffuCoder-7B-Base (基座模型) DiffuCoder-7B-Instruct (后训练模型) DiffuCoder-7B-cpGRPO (cpGRPO 优化模型) 这些模型都是基于 Qwen2.5-Coder-7B 魔改的 ( Qwen3-Coder 刻不容缓,Qwen 你赶紧啊) 从论文上看,这次的模型仍然是研究向的,而且由于目前 diffusion 文本模型均处于研究阶段,商业水平的 diffusion 文本模型也主要用来处理快速生成文本的场景。是没有办法跟 transformer base 的头部文本模型对比的。 当然,官方还是跑了分的,评分见图片。其中 BigCodeBench-Hard 只有12.8 分。作为对比,Qwen2.5-Coder-7B-Instruct 有 20.3 分,DeepSeek-R1-0528 有35.1 分。它甚至用 Qwen2.5-Coder-7B 基座模型魔改完了还没有Qwen自己后训练的 Instruct 模型分数高。所以这个模型真的只是研究向的。 那么,这次 Apple 发布的 DiffuCoder 主要研究了哪些问题?如下: dLLMs 的生成模式与 AR 模型有何不同? 在建模不同数据模态(如代码与数学)方面有何差异? dLLMs 可以有多多样化,后训练应该如何设计? 然后他们发现: dLLM 虽然是diffusion 的,但由于语言逻辑顺序的原因,会表现出从左到右的偏见。 经过预训练后,我们表明代码任务比数学任务诱导的自回归性要弱。 在 dLLMs 中,改变采样温度不仅影响采样到的标记(如在 AR 模型中那样),还会改变生成顺序本身。 最后给不知道什么是 diffusion 模型的同学温习下:diffusion架构的文本模型原理基于扩散过程(噪声逐步去除)通过迭代去噪生成文本,而且迭代可以并行,因此速度很快。看上去就像刮奖一样把字刮了出来。 目前 diffusion 文本模型有:Mercury ,LLaDA-8B,Dream 7B,gemini-diffusion 等等。 模型地址: 论文地址: repo地址:
分享
评论 0
0
karminski-牙医
2个月前
Qwen 混合模型来啦!—— Qwen VLo Lin Junyang 前几天还说要不要搞一个 Qwen3 混合模型,结果今天就来了。 Qwen VLo 是一个多模态统一理解与生成模型。这一全新升级的模型不仅能够“看懂”世界,更能基于理解进行高质量的再创造。即,他是一个同时支持图片输入和输出的模型。 目前还是预览阶段,能在 Qwen Chat 上试用。另外输出的图片有的偏黄色,所有社区也有人说是不是用GPT-image-1的输出来训练了。 blog:
分享
评论 0
0
karminski-牙医
2个月前
看到个特别有用的工具——LocalSend 这个工具可以让你在本地网络上(同一个局域网)与任何设备分享文件和消息。目前支持 Win, MacOS, Linux, Android, iOS. 地址:
分享
评论 0
0
karminski-牙医
2个月前
整个活,用 deepseek-r1 生成了个 AI 编辑器眼中的其它编辑器哈哈哈哈哈
分享
评论 0
0
1
2
3
下一页
个人主页
通知
我的投稿
我的关注
我的拉黑
我的评论
我的点赞