karminski-牙医

统计数据

80

文章

0

粉丝

0

获赞

364

阅读

karminski-牙医

4天前

Qwen Code （命令行编码Agent）刚刚更新啦，支持切换到 Qwen-VL 模型来识别图片了！我给大家测了下，效果很不错。目前可以免费用。

深度学习模型升级引发AI能力大跃进，行业迎新变革· 106 条信息

#Qwen Code #Qwen-VL模型 #命令行编码Agent #图片识别 #免费

karminski-牙医

5天前

收手吧阿问，外面全是你家大模型了.... 📷 所以下周要发的是 Qwen3.1 系列还是 Qwen-Image 更新还是啥... #qwen

深度学习模型升级引发AI能力大跃进，行业迎新变革· 106 条信息

#Qwen #大模型 #阿问 #qwen3.1 #图像更新

karminski-牙医

1周前

这个是 Veo3 生成的还是 Sora/Sora2 生成的?

AI视频井喷：Midjourney领跑，多模态混战· 251 条信息

#Veo3 #Sora #Sora2 #AI生成 #技术比较

karminski-牙医

1周前

给大家带来 Metal 刚刚开源的 OpenZL 解析简单讲，这是个数据压缩框架。一提到压缩，大家都知道，压缩通常服务于要么硬盘不够大（大量数据归档），要么网速不够快（小水管只能下载压缩包然后回来解压）这两种场景但现在已经不是拨号上网的时代了，1TB硬盘也不到100块，而现在压缩算法例如LZMA2，也已经进化到炉火纯青，给香农上坟烧过去香浓都能感动流泪的水平了。为啥还搞压缩？答案是，这玩意是给AI准备的。在大模型训练过程中，通常用的是结构化数据，比如CSV，或者JSON等。这部分数据特征明显，而OpenZL通过内置模型能识别特征，针对每份数据专门制定压缩方案，实现比传统的压缩算法更高的压缩率，更高的解压缩速度。这个解压缩速度甚至能支撑从存储集群传输到算力集群并喂饱正在训练的显卡的水平。并且，即使不是结构化数据，也能退化为Zstd。那么，既然这么猛，是不是压缩领域要洗牌了？并不，压缩率/压缩速度/解压缩速度正好也是个不可能三角形，OpenZL 压缩率高，解压快，那自然压缩慢咯，而且是需要学习目标数据找到特征的，因此压缩比较慢（但在结构化数据上也比Zstd快），所以很适合机器学习这种一旦数据准备好了需要反复学习基本不怎么修改的场景。目前这个框架Meta已经投入使用了

#OpenZL #数据压缩 #AI大模型训练 #Meta #结构化数据

karminski-牙医

2周前

Claude-Sonnet-4.5 的 EQBench 结果出了，EQBench本身在第8名的成绩，不过创意写作和长篇创意写作直接来了个第一。所以除了用 Claude-Sonnet-4.5 写代码以外，也可以试试用 Claude-Sonnet-4.5 写文了，之前我一直用幻觉之王 DeepSeek-R1 来写一些创意性质的东西。感觉现在可以换换了。

AI编程工具激战：Claude Code、Gemini Cli崛起· 996 条信息

#Claude-Sonnet-4.5 #EQBench #创意写作 #DeepSeek-R1 #文本生成

karminski-牙医

3周前

梗图也更新一波...... 网上的那个太旧了，我手动做了个新的。

#梗图 #更新 #手动 #新 #网络

karminski-牙医

3周前

速报一波，grok-code-fast-1 构不成威胁。说 grok-code-fast-1 好用的应该都是没自己实测的。（你看到的这个大象牙膏测试好像挺好的对吧？但实际上这是静止画面，对，它写出来的代码完不成动画）应该是我下半年给大家测过的头部模型最差的.... 散了吧，不要用这个写代码, 否则就等着疏通马桶吧. openrouter 上用量大纯纯是因为便宜 ($1.50 / 百万 token ) 体感应该在 OpenAI-o4-mini > gemini-2.5-flash > (grok-code-fast-1) > gpt-4o 这个区间。我还怀疑是不是不支持中文，于是用英文原生 prompt 测试，还是那样。没区别。也不是没优点啊，的确fast, 但是看上去输出超过 2K token 后速度立刻变慢（模型最大只能输出10K...... ），不确定是不是 openrouter 提供的API有问题。（我在openrouter测试的）晚点时间我给大家放出详细评测内容。

#Grok-code-fast-1 差评 #代码生成模型评测 #OpenRouter API #模型性能对比 #AI模型测评

karminski-牙医

3周前

Rust 当然可以重写一切，Rust 重写的 Transformer 模型来了！需要注意这个实现完全不依赖CUDA，而是底层仅使用了 ndarray （Rust 的科学计算库）来实现了矩阵运算。进而实现了全部的库。可以当作一个学习型项目看一看。项目地址：

#Rust #transformer模型 #ndarray #科学计算库 #学习型项目

karminski-牙医

3周前

Qwen3-Next-80B-A3B 目前社区呼声非常高，由于激活参数非常小，因此本地部署运行效果非常不错。并且工具调用性能也可以。但是！Qwen 这次没有给 llama.cpp 提供支持，估计社区从头实现这个新架构至少要几周时间。我估计 Qwen 也没想到会这么受欢迎，因此只适配了 MLX。建议官方赶紧适配下 llama.cpp 毕竟这是个新架构，未来还会基于这个架构推出新模型。早晚要适配的。

#Qwen3-Next-80B #本地部署 #llama.cpp不支持 #社区呼声高 #工具调用性能

karminski-牙医

1个月前

DeepResearch 完美替代出现了！ ROMA 刚刚在评测中干掉了所有其它 DeepResearch ，包括商业的和非商业的。比如 Kimi-Researcher, Grok-4 的 DeepResearch, Gemini-2.5-Pro 的 DeepResearch 和 OpenAI o3-pro 的 DeepResearch . 重要的是，这个项目是开源的。可以接入任何你需要的本地模型或者大模型API。官方提供的场景包括通用任务解决器（写个简单的报告）。深度研究 Agent (写论文，市场分析，技术文档)。金融分析 Agent （就不举例了，懂的都懂）。项目容易部署，直接 setup 脚本就行，或者直接用官方容器镜像。项目地址：

谷歌Deep Research：AI操作系统雏形？· 95 条信息

#ROMA #DeepResearch #开源 #评测 #替代

karminski-牙医

1个月前

看到个不错的项目，一个从0实现的推理引擎，专门面向 Qwen3-0.6B 设计, 在3050-8GB 上能跑到 116.15 token/s 比llama.cpp 还快. 想学习大模型推理引擎原理的同学可以参考这个项目 repo:

#Qwen3-0.6B #推理引擎 #3050-8GB #llama.cpp #大模型推理

karminski-牙医

1个月前

看到个写的非常好的机器学习工程师性能优化指南。建议普通工程师也可以读一下，能学到不少东西。比如我截图这个就讲了为什么现在大模型都是内存带宽受限而不是计算受限教程：

#机器学习 #性能优化 #大模型 #内存带宽 #工程师

karminski-牙医

1个月前

Kimi-K2-0905 实测! 一口气输出1100行代码~ Kimi-K2-0905 测试来啦! 直接说结论, 前端水平提升明显! 而且感觉召回变好了! 直接一次完成了 1100 行的测试! 两个前端项目测试中表现优于 DeepSeek-V3.1 不过 Python 水平没感觉到明显的变化, 这个测试运行了6次, 基本都是这个效果. 也可能是我单一测试集场景过窄了, 所以用来写 python 的同学可以再用自己的场景试试. 总之, Claude Code + Kimi-K2-0905 体验很不错, 在用 Claude Code 的同学可以立刻切模型体验一下看看了哈测试 prompt: #kimi #moonshotai #大模型竞技场 #claudecode

#Kimi-K2-0905 #前端水平提升 #DeepSeek-V3.1 #Claude Code #大模型竞技场

karminski-牙医

1个月前

来吃瓜！微软的 VibeVoice 删库跑路了？ 8月26号微软发布了号称支持4个说话人同时生成的TTS模型 VibeVoice-1.5B, 并且最大支持90分钟的语音连续生成, 这么摧枯拉朽我当天就给大家带来了一波测试 (测试地址: ), 结果令人失望, 多个说话人语音基本不能用. 单人质量也不是很好. 结果今天上去发现 github repo 已经无了???? 现在只剩下 HuggingFace 的1.5B 小模型了, 另一个发布在个人账户下的 VibeVoice-7B 模型的链接也无了 (当初我就纳闷一个正经的公司发布的模型为啥发个人账户下面? 自信如马斯克也没把 Grok4 发到HuggingFace/Doge/Grok-4 吧?). 总之, 现在只剩下 HuggingFace 的 1.5B 模型和技术报告了. 如果有什么新瓜我会持续跟进给大家报道~ 吃瓜地址:

#微软 #VibeVoice #TTS模型 #删库跑路 #技术评估

karminski-牙医

1个月前

阶跃刚刚发布了一个开源的端到端的音频模型(输入是音频，输出也是音频，可以实现对话)。帮大家整理了下模型性能。目前来看跟GPT-4o打得有来有回, 其中翻译和ASR(自动语音识别)性能是领先的，对话能力差一点，稍后为大家带来评测！模型地址：

OpenAI新德里发布会：ChatGPT语音翻译功能引发热议· 559 条信息

#开源 #音频模型 #Step #GPT-4o #语音识别

karminski-牙医

1个月前

波士顿动力的机器狗怎么还在翻跟头，这边的狗可都驼250kg杠铃片准备去给对面开席了(宇树的宣传片驼了250kg杠铃片下楼梯)..... (视频为波士顿动力的最新宣传片，不过侧面翻跟头这个的确很丝滑)

#波士顿动力 #机器狗 #宇树 #杠铃片 #技术对比

karminski-牙医

1个月前

微软这浓眉大眼的怎么还学 Llama4? 给大家带来微软刚出的TTS(文本转语音)大模型 VibeVoice-1.5B 实测! 这个模型最大的突破是同时支持4个说话人按顺序说话. 您猜怎么着? 真垃圾啊... 不多说了直接看视频效果. 说实话这个结果已经不是失望是绝望了... 问题包括说话者切换会导致声音完全变了一个人, 语音合成效果太差, 有幻觉, 生成会跳跃. 甚至选了非BGM的模型，生成的语音还自带乱七八糟的BGM. 完全达不到宣传的效果. 我的建议是别用啊, 纯纯浪费生命. 另外，官方space的代码是使用CPU推理的，可以修改为GPU推理，照着我这个改就行了，我用了一个24G显存的NVIDIA L4，实测大概使用10G左右显存。生成速度基本是一秒一个字. 开 flash_attention 会快很多. 模型地址:

#微软 #VibeVoice-1.5B #TTS #语音合成-差评 #L4 GPU推理

karminski-牙医

1个月前

Wan 2.2 4K 超高清工作流！ ComfyUI 环境下使用 Wan 2.2 搭配 Ultimate SD Upscaling, 渲染得视频是 2K的，但是 Ultimate SD Upscaling 本身支持 4K 甚至 8K，只需要你有一块超强的显卡即可。工作流可以关注这个帖子：

#Wan 2.2 #4K 超高清 #comfyUI #Ultimate SD Upscaling #视频渲染

karminski-牙医

1个月前

同意，其实我觉得就是简单的信息论问题，prompt再压缩，真正的用来表示精确的逻辑不会比代码简单多少的。现在之所以能实现"帮我写个FlappyBird游戏"能转换为几千行代码, 本质还是并不能精确控制游戏的细节, 只是用了大模型的内部"const"而已.

#信息论 #prompt压缩 #大模型 #代码 #FlappyBird游戏

karminski-牙医

1个月前

GPT-OSS-20B 比 GPT-OSS-120B 好？还记得OpenAI的开放权重模型吗？最新的论文评估得到结论 GPT-OSS-120B 在编程方面的确不如 GPT-OSS-20B. 跟我之前测试的结论相同. 论文中指出 HumanEval 和 MMLU 这两个测试中 GPT-OSS-20B 表现均比 120B 效果好。而我自己的评测中，20B编程表现好的方面在于稳定，即基本每次生成都能得到表现一致的效果，当然不是说20B足够好，但是它如果出问题，问题也是稳定的，这样容易修改一些。而120B会在各种地方出问题。付我上次测试的结论： OSS-120B 和 20B 我觉得有点摸不到头脑, 甚至 20B 生成起来我感觉代码更稳定? OSS-120B 随机性非常大, 在这个测试里面 OSS-120B 甚至反复抽卡8次, 都没有 OSS-20B 抽卡 2 次的效果好. 这里我的猜测是 120B 每次激活专家量很少, 而总专家数量又多, 导致每 token 随机到相同专家的概率会特别小, 进而表现不是那么稳定. 而 20B 则好一些, 4/128 VS 4/32 专家. 我一会也会再测下, 看我的猜测对不对. 论文地址：

#GPT-OSS-20B #GPT-OSS-120B #模型评估 #编程能力 #稳定性

karminski-牙医

1个月前

我的认知是， prompt 是给人看的，而代码可能会进化得更适合大模型看。

AI编程工具激战：Claude Code、Gemini Cli崛起· 996 条信息

#Prompt #代码 #大模型 #认知 #进化

karminski-牙医

1个月前

刚发布的 DeepSeek-V3.1-Base 写代码实测来啦! 直接说结论, 比 GPT-5 好! 我的体感是马上就能追平 Claude-Sonnet-4. 这次三组测试中, DeepSeek 除了大象牙膏的那个 OrbitControls 前面没有加 THREE 的包名称以外, 其余测试均能一次性通过, 相比较 GPT-5 在上期测试中出现了各种错误. DeepSeek-V3.1-Base 可以用流畅来形容. 不过测试出来 DeepSeek-V3.1-Base 最大的问题是美学还是差点意思, 生成的三角烧瓶只能用抽象来形容, 并且6次生成中没有一次能看的. 网页制作的样式和审美也略单一. 以上就是本期评测, 关注我带你看全网嗯快嗯专业的大模型评测. #DeepSeek #DeepSeekV31

深度学习模型升级引发AI能力大跃进，行业迎新变革· 106 条信息

#DeepSeek-V3.1-Base #代码生成 #GPT-5 #大模型评测 #美学不足

karminski-牙医

2个月前

GPT-5 召回的确牛逼，所以接 RAG 目前应该是最佳选择。 Fiction.LiveBench 测试数据，192K上下文仍然有 87.5%, 妥妥 SOTA 了. 奥特曼其实应该把这个数据拿出来炫的，从o3开始其实 OpenAI 系列模型的召回能力都是可圈可点的。 #GPT5

OpenAI新德里发布会：ChatGPT语音翻译功能引发热议· 559 条信息

#GPT-5 #RAG #OpenAI #奥特曼 #SOTA

karminski-牙医

2个月前

OpenAI 和 Anthropic 新出的模型写代码实测来啦! 本次测试包括: OpenAI-OSS-120B OpenAI-OSS-20B Claude-Opus-4.1 Gemini-2.5-pro (凑数的) Opus 放这里去比的确不讲武德. 所以主要拿 Gemini-2.5-pro 跟它对打. 我主要的意思是告诉大家, 不要用不太行的模型写代码. 只会浪费你的时间去调试并且积累屎山 (x). 每个模型各运行至少6次, 取最好结果给大家录屏. 从测试结果看 Claude-Opus-4.1 出乎意料的稳. 他对空间理解远超任何模型, 说A放在B上面就能做到A放在B上面. 其他模型得不断抽卡才能偶尔抽到. 不知道 Anthropic 是怎么做到的. 牛逼. 要不是实在是太贵了, 真的建议用它来写代码. 我测试了6次就干进去了2刀. OSS-120B 和 20B 我觉得有点摸不到头脑, 甚至 20B 生成起来我感觉代码更稳定? OSS-120B 随机性非常大, 在这个测试里面 OSS-120B 甚至反复抽卡8次, 都没有 OSS-20B 抽卡 2 次的效果好. 这里我的猜测是 120B 每次激活专家量很少, 而总专家数量又多, 导致每 token 随机到相同专家的概率会特别小, 进而表现不是那么稳定. 而 20B 则好一些, 4/128 VS 4/32 专家. 我一会也会再测下, 看我的猜测对不对. 总之这次快速测试结论如下: Claude-Opus-4.1 > Gemini-2.5-pro > OpenAI-OSS-20B >? (存疑) OpenAI-OSS-120B OpenAI-OSS-120B 用起来要谨慎, 写代码特别不稳定. OpenAI-OSS-20B 在这个参数量大小下反而挺好. #opus41 #oss120b #OpenAIOSS

Google Gemini 2.5发布引发AI模型性价比热议· 222 条信息

OpenAI新德里发布会：ChatGPT语音翻译功能引发热议· 559 条信息

#代码模型测评 #Claude-Opus-4.1 稳定 #OpenAI-OSS-120B 不稳定 #Gemini-2.5-pro 中等 #Anthropic 模型空间理解强

karminski-牙医

2个月前

GPT-OSS 模型的 EQBench 结果出了, 基本就是 GPT-4.1-mini 和 GPT-4.1-nano 的水平. 长篇创意写作基本接近 Qwen3-30B-A3B 的水平。gpt-oss-120b 120B VS 30B。写作方面好不好用不言而喻了。更何况有幻觉大师 DeepSeek-R1 在前面。我比较好奇的是除了给程序API调用，真的有人在工作中用 GPT-4.1-mini 吗？

#GPT-OSS模型 #EQBench结果 #GPT-4.1-mini #Qwen3-30B-A3B #DeepSeek-R1