时政
财经
科技
虚拟货币
其他
登录
karminski-牙医
关注
统计数据
103
文章
0
粉丝
0
获赞
2209
阅读
热门文章
1
TechFlow 深潮 发布的文章:近期教育领域的变化引发了广泛讨论,我认为教育改革应该更加注重学生的个性化发展和创新能...
145
32
karminski-牙医
4个月前
这个是 Veo3 生成的还是 Sora/Sora2 生成的?
AI视频井喷:Midjourney领跑,多模态混战· 337 条信息
#Veo3
#Sora
#Sora2
#AI生成
#技术比较
分享
评论 0
0
karminski-牙医
4个月前
给大家带来 Metal 刚刚开源的 OpenZL 解析 简单讲,这是个数据压缩框架。一提到压缩,大家都知道,压缩通常服务于要么硬盘不够大(大量数据归档),要么网速不够快(小水管只能下载压缩包然后回来解压)这两种场景 但现在已经不是拨号上网的时代了,1TB硬盘也不到100块,而现在压缩算法例如LZMA2,也已经进化到炉火纯青,给香农上坟烧过去香浓都能感动流泪的水平了。为啥还搞压缩? 答案是,这玩意是给AI准备的。在大模型训练过程中,通常用的是结构化数据,比如CSV,或者JSON等。这部分数据特征明显,而OpenZL通过内置模型能识别特征,针对每份数据专门制定压缩方案,实现比传统的压缩算法更高的压缩率,更高的解压缩速度。这个解压缩速度甚至能支撑从存储集群传输到算力集群并喂饱正在训练的显卡的水平。并且,即使不是结构化数据,也能退化为Zstd。 那么,既然这么猛,是不是压缩领域要洗牌了?并不,压缩率/压缩速度/解压缩速度正好也是个不可能三角形,OpenZL 压缩率高,解压快,那自然压缩慢咯,而且是需要学习目标数据找到特征的,因此压缩比较慢(但在结构化数据上也比Zstd快),所以很适合机器学习这种一旦数据准备好了需要反复学习基本不怎么修改的场景。 目前这个框架Meta已经投入使用了
#OpenZL
#数据压缩
#AI大模型训练
#Meta
#结构化数据
分享
评论 0
0
karminski-牙医
4个月前
Claude-Sonnet-4.5 的 EQBench 结果出了,EQBench本身在第8名的成绩,不过创意写作和长篇创意写作直接来了个第一。 所以除了用 Claude-Sonnet-4.5 写代码以外,也可以试试用 Claude-Sonnet-4.5 写文了,之前我一直用幻觉之王 DeepSeek-R1 来写一些创意性质的东西。感觉现在可以换换了。
AI编程工具激战:Claude Code、Gemini Cli崛起· 1256 条信息
#Claude-Sonnet-4.5
#EQBench
#创意写作
#DeepSeek-R1
#文本生成
分享
评论 0
0
karminski-牙医
5个月前
梗图也更新一波...... 网上的那个太旧了,我手动做了个新的。
#梗图
#更新
#手动
#新
#网络
分享
评论 0
0
karminski-牙医
5个月前
速报一波,grok-code-fast-1 构不成威胁。说 grok-code-fast-1 好用的应该都是没自己实测的。 (你看到的这个大象牙膏测试好像挺好的对吧?但实际上这是静止画面,对,它写出来的代码完不成动画) 应该是我下半年给大家测过的头部模型最差的.... 散了吧,不要用这个写代码, 否则就等着疏通马桶吧. openrouter 上用量大纯纯是因为便宜 ($1.50 / 百万 token ) 体感应该在 OpenAI-o4-mini > gemini-2.5-flash > (grok-code-fast-1) > gpt-4o 这个区间。 我还怀疑是不是不支持中文,于是用英文原生 prompt 测试,还是那样。没区别。 也不是没优点啊,的确fast, 但是看上去输出超过 2K token 后速度立刻变慢 (模型最大只能输出10K...... ),不确定是不是 openrouter 提供的API有问题。(我在openrouter测试的) 晚点时间我给大家放出详细评测内容。
#Grok-code-fast-1 差评
#代码生成模型评测
#OpenRouter API
#模型性能对比
#AI模型测评
分享
评论 0
0
karminski-牙医
5个月前
Rust 当然可以重写一切,Rust 重写的 Transformer 模型来了! 需要注意这个实现完全不依赖CUDA,而是底层仅使用了 ndarray (Rust 的科学计算库) 来实现了矩阵运算。进而实现了全部的库。 可以当作一个学习型项目看一看。 项目地址:
#Rust
#transformer模型
#ndarray
#科学计算库
#学习型项目
分享
评论 0
0
karminski-牙医
5个月前
Qwen3-Next-80B-A3B 目前社区呼声非常高,由于激活参数非常小,因此本地部署运行效果非常不错。并且工具调用性能也可以。 但是!Qwen 这次没有给 llama.cpp 提供支持,估计社区从头实现这个新架构至少要几周时间。我估计 Qwen 也没想到会这么受欢迎,因此只适配了 MLX。 建议官方赶紧适配下 llama.cpp 毕竟这是个新架构,未来还会基于这个架构推出新模型。早晚要适配的。
#Qwen3-Next-80B
#本地部署
#llama.cpp不支持
#社区呼声高
#工具调用性能
分享
评论 0
0
karminski-牙医
5个月前
DeepResearch 完美替代出现了! ROMA 刚刚在评测中干掉了所有其它 DeepResearch ,包括商业的和非商业的。比如 Kimi-Researcher, Grok-4 的 DeepResearch, Gemini-2.5-Pro 的 DeepResearch 和 OpenAI o3-pro 的 DeepResearch . 重要的是,这个项目是开源的。可以接入任何你需要的本地模型或者大模型API。官方提供的场景包括通用任务解决器(写个简单的报告)。深度研究 Agent (写论文,市场分析,技术文档)。金融分析 Agent (就不举例了,懂的都懂)。 项目容易部署,直接 setup 脚本就行,或者直接用官方容器镜像。 项目地址:
谷歌Deep Research:AI操作系统雏形?· 145 条信息
#ROMA
#DeepResearch
#开源
#评测
#替代
分享
评论 0
0
karminski-牙医
5个月前
看到个不错的项目,一个从0实现的推理引擎,专门面向 Qwen3-0.6B 设计, 在3050-8GB 上能跑到 116.15 token/s 比llama.cpp 还快. 想学习大模型推理引擎原理的同学可以参考这个项目 repo:
#Qwen3-0.6B
#推理引擎
#3050-8GB
#llama.cpp
#大模型推理
分享
评论 0
0
karminski-牙医
5个月前
看到个写的非常好的机器学习工程师性能优化指南。建议普通工程师也可以读一下,能学到不少东西。比如我截图这个就讲了为什么现在大模型都是内存带宽受限而不是计算受限 教程:
#机器学习
#性能优化
#大模型
#内存带宽
#工程师
分享
评论 0
0
karminski-牙医
5个月前
Kimi-K2-0905 实测! 一口气输出1100行代码~ Kimi-K2-0905 测试来啦! 直接说结论, 前端水平提升明显! 而且感觉召回变好了! 直接一次完成了 1100 行的测试! 两个前端项目测试中表现优于 DeepSeek-V3.1 不过 Python 水平没感觉到明显的变化, 这个测试运行了6次, 基本都是这个效果. 也可能是我单一测试集场景过窄了, 所以用来写 python 的同学可以再用自己的场景试试. 总之, Claude Code + Kimi-K2-0905 体验很不错, 在用 Claude Code 的同学可以立刻切模型体验一下看看了哈 测试 prompt: #kimi #moonshotai #大模型竞技场 #claudecode
#Kimi-K2-0905
#前端水平提升
#DeepSeek-V3.1
#Claude Code
#大模型竞技场
分享
评论 0
0
karminski-牙医
5个月前
来吃瓜!微软的 VibeVoice 删库跑路了? 8月26号微软发布了号称支持4个说话人同时生成的TTS模型 VibeVoice-1.5B, 并且最大支持90分钟的语音连续生成, 这么摧枯拉朽我当天就给大家带来了一波测试 (测试地址: ), 结果令人失望, 多个说话人语音基本不能用. 单人质量也不是很好. 结果今天上去发现 github repo 已经无了???? 现在只剩下 HuggingFace 的1.5B 小模型了, 另一个发布在个人账户下的 VibeVoice-7B 模型的链接也无了 (当初我就纳闷一个正经的公司发布的模型为啥发个人账户下面? 自信如马斯克也没把 Grok4 发到HuggingFace/Doge/Grok-4 吧?). 总之, 现在只剩下 HuggingFace 的 1.5B 模型和技术报告了. 如果有什么新瓜我会持续跟进给大家报道~ 吃瓜地址:
#微软
#VibeVoice
#TTS模型
#删库跑路
#技术评估
分享
评论 0
0
karminski-牙医
5个月前
阶跃刚刚发布了一个开源的端到端的音频模型(输入是音频,输出也是音频,可以实现对话)。 帮大家整理了下模型性能。目前来看跟GPT-4o打得有来有回, 其中翻译和ASR(自动语音识别)性能是领先的,对话能力差一点,稍后为大家带来评测! 模型地址:
OpenAI新德里发布会:ChatGPT语音翻译功能引发热议· 869 条信息
#开源
#音频模型
#Step
#GPT-4o
#语音识别
分享
评论 0
0
karminski-牙医
6个月前
波士顿动力的机器狗怎么还在翻跟头,这边的狗可都驼250kg杠铃片准备去给对面开席了(宇树的宣传片驼了250kg杠铃片下楼梯)..... (视频为波士顿动力的最新宣传片,不过侧面翻跟头这个的确很丝滑)
#波士顿动力
#机器狗
#宇树
#杠铃片
#技术对比
分享
评论 0
0
karminski-牙医
6个月前
微软这浓眉大眼的怎么还学 Llama4? 给大家带来微软刚出的TTS(文本转语音)大模型 VibeVoice-1.5B 实测! 这个模型最大的突破是同时支持4个说话人按顺序说话. 您猜怎么着? 真垃圾啊... 不多说了直接看视频效果. 说实话这个结果已经不是失望是绝望了... 问题包括说话者切换会导致声音完全变了一个人, 语音合成效果太差, 有幻觉, 生成会跳跃. 甚至选了非BGM的模型, 生成的语音还自带乱七八糟的BGM. 完全达不到宣传的效果. 我的建议是别用啊, 纯纯浪费生命. 另外,官方space的代码是使用CPU推理的,可以修改为GPU推理,照着我这个改就行了, 我用了一个24G显存的NVIDIA L4,实测大概使用10G左右显存。生成速度基本是一秒一个字. 开 flash_attention 会快很多. 模型地址:
#微软
#VibeVoice-1.5B
#TTS
#语音合成-差评
#L4 GPU推理
分享
评论 0
0
karminski-牙医
6个月前
Wan 2.2 4K 超高清工作流! ComfyUI 环境下 使用 Wan 2.2 搭配 Ultimate SD Upscaling, 渲染得视频是 2K的,但是 Ultimate SD Upscaling 本身支持 4K 甚至 8K,只需要你有一块超强的显卡即可。 工作流可以关注这个帖子:
#Wan 2.2
#4K 超高清
#comfyUI
#Ultimate SD Upscaling
#视频渲染
分享
评论 0
0
karminski-牙医
6个月前
同意,其实我觉得就是简单的信息论问题,prompt再压缩,真正的用来表示精确的逻辑不会比代码简单多少的。现在之所以能实现"帮我写个FlappyBird游戏"能转换为几千行代码, 本质还是并不能精确控制游戏的细节, 只是用了大模型的内部"const"而已.
#信息论
#prompt压缩
#大模型
#代码
#FlappyBird游戏
分享
评论 0
0
karminski-牙医
6个月前
GPT-OSS-20B 比 GPT-OSS-120B 好? 还记得OpenAI的开放权重模型吗?最新的论文评估得到结论 GPT-OSS-120B 在编程方面的确不如 GPT-OSS-20B. 跟我之前测试的结论相同. 论文中指出 HumanEval 和 MMLU 这两个测试中 GPT-OSS-20B 表现均比 120B 效果好。而我自己的评测中,20B编程表现好的方面在于稳定,即基本每次生成都能得到表现一致的效果,当然不是说20B足够好,但是它如果出问题,问题也是稳定的,这样容易修改一些。而120B会在各种地方出问题。 付我上次测试的结论: OSS-120B 和 20B 我觉得有点摸不到头脑, 甚至 20B 生成起来我感觉代码更稳定? OSS-120B 随机性非常大, 在这个测试里面 OSS-120B 甚至反复抽卡8次, 都没有 OSS-20B 抽卡 2 次的效果好. 这里我的猜测是 120B 每次激活专家量很少, 而总专家数量又多, 导致每 token 随机到相同专家的概率会特别小, 进而表现不是那么稳定. 而 20B 则好一些, 4/128 VS 4/32 专家. 我一会也会再测下, 看我的猜测对不对. 论文地址:
#GPT-OSS-20B
#GPT-OSS-120B
#模型评估
#编程能力
#稳定性
分享
评论 0
0
karminski-牙医
6个月前
我的认知是, prompt 是给人看的,而代码可能会进化得更适合大模型看。
AI编程工具激战:Claude Code、Gemini Cli崛起· 1256 条信息
#Prompt
#代码
#大模型
#认知
#进化
分享
评论 0
0
karminski-牙医
6个月前
刚发布的 DeepSeek-V3.1-Base 写代码实测来啦! 直接说结论, 比 GPT-5 好! 我的体感是马上就能追平 Claude-Sonnet-4. 这次三组测试中, DeepSeek 除了大象牙膏的那个 OrbitControls 前面没有加 THREE 的包名称以外, 其余测试均能一次性通过, 相比较 GPT-5 在上期测试中出现了各种错误. DeepSeek-V3.1-Base 可以用流畅来形容. 不过测试出来 DeepSeek-V3.1-Base 最大的问题是美学还是差点意思, 生成的三角烧瓶只能用抽象来形容, 并且6次生成中没有一次能看的. 网页制作的样式和审美也略单一. 以上就是本期评测, 关注我带你看全网嗯快嗯专业的大模型评测. #DeepSeek #DeepSeekV31
深度学习模型升级引发AI能力大跃进,行业迎新变革· 143 条信息
#DeepSeek-V3.1-Base
#代码生成
#GPT-5
#大模型评测
#美学不足
分享
评论 0
0
karminski-牙医
6个月前
GPT-5 召回的确牛逼,所以接 RAG 目前应该是最佳选择。 Fiction.LiveBench 测试数据,192K上下文仍然有 87.5%, 妥妥 SOTA 了. 奥特曼其实应该把这个数据拿出来炫的,从o3开始其实 OpenAI 系列模型的召回能力都是可圈可点的。 #GPT5
OpenAI新德里发布会:ChatGPT语音翻译功能引发热议· 869 条信息
#GPT-5
#RAG
#OpenAI
#奥特曼
#SOTA
分享
评论 0
0
karminski-牙医
6个月前
OpenAI 和 Anthropic 新出的模型写代码实测来啦! 本次测试包括: OpenAI-OSS-120B OpenAI-OSS-20B Claude-Opus-4.1 Gemini-2.5-pro (凑数的) Opus 放这里去比的确不讲武德. 所以主要拿 Gemini-2.5-pro 跟它对打. 我主要的意思是告诉大家, 不要用不太行的模型写代码. 只会浪费你的时间去调试并且积累屎山 (x). 每个模型各运行至少6次, 取最好结果给大家录屏. 从测试结果看 Claude-Opus-4.1 出乎意料的稳. 他对空间理解远超任何模型, 说A放在B上面就能做到A放在B上面. 其他模型得不断抽卡才能偶尔抽到. 不知道 Anthropic 是怎么做到的. 牛逼. 要不是实在是太贵了, 真的建议用它来写代码. 我测试了6次就干进去了2刀. OSS-120B 和 20B 我觉得有点摸不到头脑, 甚至 20B 生成起来我感觉代码更稳定? OSS-120B 随机性非常大, 在这个测试里面 OSS-120B 甚至反复抽卡8次, 都没有 OSS-20B 抽卡 2 次的效果好. 这里我的猜测是 120B 每次激活专家量很少, 而总专家数量又多, 导致每 token 随机到相同专家的概率会特别小, 进而表现不是那么稳定. 而 20B 则好一些, 4/128 VS 4/32 专家. 我一会也会再测下, 看我的猜测对不对. 总之这次快速测试结论如下: Claude-Opus-4.1 > Gemini-2.5-pro > OpenAI-OSS-20B >? (存疑) OpenAI-OSS-120B OpenAI-OSS-120B 用起来要谨慎, 写代码特别不稳定. OpenAI-OSS-20B 在这个参数量大小下反而挺好. #opus41 #oss120b #OpenAIOSS
Google Gemini 2.5发布引发AI模型性价比热议· 475 条信息
OpenAI新德里发布会:ChatGPT语音翻译功能引发热议· 869 条信息
#代码模型测评
#Claude-Opus-4.1 稳定
#OpenAI-OSS-120B 不稳定
#Gemini-2.5-pro 中等
#Anthropic 模型空间理解强
分享
评论 0
0
karminski-牙医
6个月前
GPT-OSS 模型的 EQBench 结果出了, 基本就是 GPT-4.1-mini 和 GPT-4.1-nano 的水平. 长篇创意写作基本接近 Qwen3-30B-A3B 的水平。gpt-oss-120b 120B VS 30B。写作方面好不好用不言而喻了。更何况有幻觉大师 DeepSeek-R1 在前面。 我比较好奇的是除了给程序API调用,真的有人在工作中用 GPT-4.1-mini 吗?
#GPT-OSS模型
#EQBench结果
#GPT-4.1-mini
#Qwen3-30B-A3B
#DeepSeek-R1
分享
评论 0
0
karminski-牙医
6个月前
就在刚刚 OpenAI 发布了两个开放权重模型! 给大家带来深度解析! gpt-oss-120b 激活参数量 5.1B gpt-oss-20b 激活参数量 3.6B 两个都是 MoE 架构的推理模型. 首先, 这两个模型发布的就已经是量化版本了, 他们的 MoE 层直接用 MXFP4 精度训练的! 这意味着暂时没有办法微调这两个模型了 (现有微调框架不支持, 得等等). 然后, 大家肯定知道 OpenAI 搞了各种奇怪的命名, 比如 O3-mini-high, 这个 high 是啥? 现在答案揭晓, OpenAI 的模型是可以配置推理努力程度的. 分为三档, low, medium, high. 当然 high 模式下跑分最高, 相对的思考时间更长. Agent 功能适配得非常好, 原生针对 function call, 网页浏览, 执行 python 代码, 各种结构化输出进行了优化. 这也能从从跑分上看出来, 使用 tool 后分数均有提升. 接下来是深度内容: 首先 openrouter 上的 horzon-alpha 和 horzon-beta 肯定就不是这俩模型啦, 上下文长度不同. 那么 orzon-alpha 和 horzon-beta 可能就是 GPT-5 系列了, 不过大家测过后都说效果没那么惊艳, 我之前猜测可能是 GPT-5-mini, 让我们拭目以待哈哈. 其次! 重点的重点! 这俩模型原生上下文长度只有 4K! 通过YaRN位置编码缩放和滑动窗口注意力最终扩展到 131072 token. 这意味着可能超过 4K 后召回性能会严重下降. 我给大家做了测试, 方法很简单, 把《孔乙己》塞进去, 然后问模型文中孔乙己这个名字出现了多少次? 答案是33次, 次数越接近这个值召回越准确(我们暂时忽略FP), 因为大模型要回顾上文才能统计. 可以看到 gpt-oss-120b 回答是 22 次 (66.67%), 作为对比, 我是用 GPT-o3 回答是 32 次 (96.97%),所以建议做RAG的场景这两个模型使用要谨慎. 当然实际也建议等等 Fiction.LiveBench 的测试结果, 会比我这个快速预览准确很多. 另外, 从官方自己的跑分看, SWEBench 分数还是很高的, 达到了62.4 (claude-Sonnet-4 是68, Qwen3-Coder-480B 是67, Kimi-K2 是65.4), 但 AiderPolyglot 分数相对较低 44.4, (claude-Sonnet-4 是56.4, Qwen3-Coder-480B 是61.8, Kimi-K2 是60). 所以实际编程效果还需要测试. 稍后我马上为大家带啦写代码的实际性能测试! #openai #GPToss
#OpenAI
#gpt-oss
#MoE
#模型量化
#上下文长度
分享
评论 0
0
karminski-牙医
7个月前
字节跳动刚刚发布了他们的文本 Diffusion 模型!—— Seed Diffusion Preview! 给不太了解文本 Diffusion 模型的同学,大家都知道现在 transformer 大模型是一个字一个字蹦出来的,而文本Diffusion 模型则是跟图像Diffusion 模型差不多,是一个去噪过程,整段话随机出现文本最后组成所有输出。 Diffusion 文本模型的优点是巨快,字节这个有 每秒 2146 个 token 的速度(应该是现在最快?)。我让它用 Rust 写冒泡排序,几乎是秒出。当然目前 Diffusion 文本模型最大的问题还是性能太低了,很难干活。 目前除了 Seed Diffusion Preview以外,还有最知名的 Mercury Coder 和 Google 的 Gemini Diffusion. 一会也给大家带来简单的测评。 字节的发布blog: 在线体验地址:
#字节跳动
#文本 Diffusion 模型
#Seed Diffusion Preview
#AI
#技术测评
分享
评论 0
0
上一页
1
2
3
4
5
下一页
个人主页
通知
我的投稿
我的关注
我的拉黑
我的评论
我的点赞