时政
财经
科技
虚拟货币
其他
登录
karminski-牙医
关注
统计数据
64
文章
0
粉丝
0
获赞
132
阅读
热门文章
1
TechFlow 深潮 发布的文章:近期教育领域的变化引发了广泛讨论,我认为教育改革应该更加注重学生的个性化发展和创新能...
145
32
karminski-牙医
1天前
阶跃刚刚发布了一个开源的端到端的音频模型(输入是音频,输出也是音频,可以实现对话)。 帮大家整理了下模型性能。目前来看跟GPT-4o打得有来有回, 其中翻译和ASR(自动语音识别)性能是领先的,对话能力差一点,稍后为大家带来评测! 模型地址:
OpenAI新德里发布会:ChatGPT语音翻译功能引发热议· 386 条信息
#开源
#音频模型
#Step
#GPT-4o
#语音识别
分享
评论 0
0
karminski-牙医
3天前
波士顿动力的机器狗怎么还在翻跟头,这边的狗可都驼250kg杠铃片准备去给对面开席了(宇树的宣传片驼了250kg杠铃片下楼梯)..... (视频为波士顿动力的最新宣传片,不过侧面翻跟头这个的确很丝滑)
#波士顿动力
#机器狗
#宇树
#杠铃片
#技术对比
分享
评论 0
0
karminski-牙医
5天前
微软这浓眉大眼的怎么还学 Llama4? 给大家带来微软刚出的TTS(文本转语音)大模型 VibeVoice-1.5B 实测! 这个模型最大的突破是同时支持4个说话人按顺序说话. 您猜怎么着? 真垃圾啊... 不多说了直接看视频效果. 说实话这个结果已经不是失望是绝望了... 问题包括说话者切换会导致声音完全变了一个人, 语音合成效果太差, 有幻觉, 生成会跳跃. 甚至选了非BGM的模型, 生成的语音还自带乱七八糟的BGM. 完全达不到宣传的效果. 我的建议是别用啊, 纯纯浪费生命. 另外,官方space的代码是使用CPU推理的,可以修改为GPU推理,照着我这个改就行了, 我用了一个24G显存的NVIDIA L4,实测大概使用10G左右显存。生成速度基本是一秒一个字. 开 flash_attention 会快很多. 模型地址:
#微软
#VibeVoice-1.5B
#TTS
#语音合成-差评
#L4 GPU推理
分享
评论 0
0
karminski-牙医
1周前
Wan 2.2 4K 超高清工作流! ComfyUI 环境下 使用 Wan 2.2 搭配 Ultimate SD Upscaling, 渲染得视频是 2K的,但是 Ultimate SD Upscaling 本身支持 4K 甚至 8K,只需要你有一块超强的显卡即可。 工作流可以关注这个帖子:
#Wan 2.2
#4K 超高清
#comfyUI
#Ultimate SD Upscaling
#视频渲染
分享
评论 0
0
karminski-牙医
1周前
同意,其实我觉得就是简单的信息论问题,prompt再压缩,真正的用来表示精确的逻辑不会比代码简单多少的。现在之所以能实现"帮我写个FlappyBird游戏"能转换为几千行代码, 本质还是并不能精确控制游戏的细节, 只是用了大模型的内部"const"而已.
#信息论
#prompt压缩
#大模型
#代码
#FlappyBird游戏
分享
评论 0
0
karminski-牙医
1周前
GPT-OSS-20B 比 GPT-OSS-120B 好? 还记得OpenAI的开放权重模型吗?最新的论文评估得到结论 GPT-OSS-120B 在编程方面的确不如 GPT-OSS-20B. 跟我之前测试的结论相同. 论文中指出 HumanEval 和 MMLU 这两个测试中 GPT-OSS-20B 表现均比 120B 效果好。而我自己的评测中,20B编程表现好的方面在于稳定,即基本每次生成都能得到表现一致的效果,当然不是说20B足够好,但是它如果出问题,问题也是稳定的,这样容易修改一些。而120B会在各种地方出问题。 付我上次测试的结论: OSS-120B 和 20B 我觉得有点摸不到头脑, 甚至 20B 生成起来我感觉代码更稳定? OSS-120B 随机性非常大, 在这个测试里面 OSS-120B 甚至反复抽卡8次, 都没有 OSS-20B 抽卡 2 次的效果好. 这里我的猜测是 120B 每次激活专家量很少, 而总专家数量又多, 导致每 token 随机到相同专家的概率会特别小, 进而表现不是那么稳定. 而 20B 则好一些, 4/128 VS 4/32 专家. 我一会也会再测下, 看我的猜测对不对. 论文地址:
#GPT-OSS-20B
#GPT-OSS-120B
#模型评估
#编程能力
#稳定性
分享
评论 0
0
karminski-牙医
1周前
我的认知是, prompt 是给人看的,而代码可能会进化得更适合大模型看。
AI编程工具激战:Claude Code、Gemini Cli崛起· 627 条信息
#Prompt
#代码
#大模型
#认知
#进化
分享
评论 0
0
karminski-牙医
1周前
刚发布的 DeepSeek-V3.1-Base 写代码实测来啦! 直接说结论, 比 GPT-5 好! 我的体感是马上就能追平 Claude-Sonnet-4. 这次三组测试中, DeepSeek 除了大象牙膏的那个 OrbitControls 前面没有加 THREE 的包名称以外, 其余测试均能一次性通过, 相比较 GPT-5 在上期测试中出现了各种错误. DeepSeek-V3.1-Base 可以用流畅来形容. 不过测试出来 DeepSeek-V3.1-Base 最大的问题是美学还是差点意思, 生成的三角烧瓶只能用抽象来形容, 并且6次生成中没有一次能看的. 网页制作的样式和审美也略单一. 以上就是本期评测, 关注我带你看全网嗯快嗯专业的大模型评测. #DeepSeek #DeepSeekV31
深度学习模型升级引发AI能力大跃进,行业迎新变革· 53 条信息
#DeepSeek-V3.1-Base
#代码生成
#GPT-5
#大模型评测
#美学不足
分享
评论 0
0
karminski-牙医
3周前
GPT-5 召回的确牛逼,所以接 RAG 目前应该是最佳选择。 Fiction.LiveBench 测试数据,192K上下文仍然有 87.5%, 妥妥 SOTA 了. 奥特曼其实应该把这个数据拿出来炫的,从o3开始其实 OpenAI 系列模型的召回能力都是可圈可点的。 #GPT5
OpenAI新德里发布会:ChatGPT语音翻译功能引发热议· 386 条信息
#GPT-5
#RAG
#OpenAI
#奥特曼
#SOTA
分享
评论 0
0
karminski-牙医
3周前
OpenAI 和 Anthropic 新出的模型写代码实测来啦! 本次测试包括: OpenAI-OSS-120B OpenAI-OSS-20B Claude-Opus-4.1 Gemini-2.5-pro (凑数的) Opus 放这里去比的确不讲武德. 所以主要拿 Gemini-2.5-pro 跟它对打. 我主要的意思是告诉大家, 不要用不太行的模型写代码. 只会浪费你的时间去调试并且积累屎山 (x). 每个模型各运行至少6次, 取最好结果给大家录屏. 从测试结果看 Claude-Opus-4.1 出乎意料的稳. 他对空间理解远超任何模型, 说A放在B上面就能做到A放在B上面. 其他模型得不断抽卡才能偶尔抽到. 不知道 Anthropic 是怎么做到的. 牛逼. 要不是实在是太贵了, 真的建议用它来写代码. 我测试了6次就干进去了2刀. OSS-120B 和 20B 我觉得有点摸不到头脑, 甚至 20B 生成起来我感觉代码更稳定? OSS-120B 随机性非常大, 在这个测试里面 OSS-120B 甚至反复抽卡8次, 都没有 OSS-20B 抽卡 2 次的效果好. 这里我的猜测是 120B 每次激活专家量很少, 而总专家数量又多, 导致每 token 随机到相同专家的概率会特别小, 进而表现不是那么稳定. 而 20B 则好一些, 4/128 VS 4/32 专家. 我一会也会再测下, 看我的猜测对不对. 总之这次快速测试结论如下: Claude-Opus-4.1 > Gemini-2.5-pro > OpenAI-OSS-20B >? (存疑) OpenAI-OSS-120B OpenAI-OSS-120B 用起来要谨慎, 写代码特别不稳定. OpenAI-OSS-20B 在这个参数量大小下反而挺好. #opus41 #oss120b #OpenAIOSS
Google Gemini 2.5发布引发AI模型性价比热议· 140 条信息
OpenAI新德里发布会:ChatGPT语音翻译功能引发热议· 386 条信息
#代码模型测评
#Claude-Opus-4.1 稳定
#OpenAI-OSS-120B 不稳定
#Gemini-2.5-pro 中等
#Anthropic 模型空间理解强
分享
评论 0
0
karminski-牙医
3周前
GPT-OSS 模型的 EQBench 结果出了, 基本就是 GPT-4.1-mini 和 GPT-4.1-nano 的水平. 长篇创意写作基本接近 Qwen3-30B-A3B 的水平。gpt-oss-120b 120B VS 30B。写作方面好不好用不言而喻了。更何况有幻觉大师 DeepSeek-R1 在前面。 我比较好奇的是除了给程序API调用,真的有人在工作中用 GPT-4.1-mini 吗?
#GPT-OSS模型
#EQBench结果
#GPT-4.1-mini
#Qwen3-30B-A3B
#DeepSeek-R1
分享
评论 0
0
karminski-牙医
3周前
就在刚刚 OpenAI 发布了两个开放权重模型! 给大家带来深度解析! gpt-oss-120b 激活参数量 5.1B gpt-oss-20b 激活参数量 3.6B 两个都是 MoE 架构的推理模型. 首先, 这两个模型发布的就已经是量化版本了, 他们的 MoE 层直接用 MXFP4 精度训练的! 这意味着暂时没有办法微调这两个模型了 (现有微调框架不支持, 得等等). 然后, 大家肯定知道 OpenAI 搞了各种奇怪的命名, 比如 O3-mini-high, 这个 high 是啥? 现在答案揭晓, OpenAI 的模型是可以配置推理努力程度的. 分为三档, low, medium, high. 当然 high 模式下跑分最高, 相对的思考时间更长. Agent 功能适配得非常好, 原生针对 function call, 网页浏览, 执行 python 代码, 各种结构化输出进行了优化. 这也能从从跑分上看出来, 使用 tool 后分数均有提升. 接下来是深度内容: 首先 openrouter 上的 horzon-alpha 和 horzon-beta 肯定就不是这俩模型啦, 上下文长度不同. 那么 orzon-alpha 和 horzon-beta 可能就是 GPT-5 系列了, 不过大家测过后都说效果没那么惊艳, 我之前猜测可能是 GPT-5-mini, 让我们拭目以待哈哈. 其次! 重点的重点! 这俩模型原生上下文长度只有 4K! 通过YaRN位置编码缩放和滑动窗口注意力最终扩展到 131072 token. 这意味着可能超过 4K 后召回性能会严重下降. 我给大家做了测试, 方法很简单, 把《孔乙己》塞进去, 然后问模型文中孔乙己这个名字出现了多少次? 答案是33次, 次数越接近这个值召回越准确(我们暂时忽略FP), 因为大模型要回顾上文才能统计. 可以看到 gpt-oss-120b 回答是 22 次 (66.67%), 作为对比, 我是用 GPT-o3 回答是 32 次 (96.97%),所以建议做RAG的场景这两个模型使用要谨慎. 当然实际也建议等等 Fiction.LiveBench 的测试结果, 会比我这个快速预览准确很多. 另外, 从官方自己的跑分看, SWEBench 分数还是很高的, 达到了62.4 (claude-Sonnet-4 是68, Qwen3-Coder-480B 是67, Kimi-K2 是65.4), 但 AiderPolyglot 分数相对较低 44.4, (claude-Sonnet-4 是56.4, Qwen3-Coder-480B 是61.8, Kimi-K2 是60). 所以实际编程效果还需要测试. 稍后我马上为大家带啦写代码的实际性能测试! #openai #GPToss
#OpenAI
#gpt-oss
#MoE
#模型量化
#上下文长度
分享
评论 0
0
karminski-牙医
4周前
字节跳动刚刚发布了他们的文本 Diffusion 模型!—— Seed Diffusion Preview! 给不太了解文本 Diffusion 模型的同学,大家都知道现在 transformer 大模型是一个字一个字蹦出来的,而文本Diffusion 模型则是跟图像Diffusion 模型差不多,是一个去噪过程,整段话随机出现文本最后组成所有输出。 Diffusion 文本模型的优点是巨快,字节这个有 每秒 2146 个 token 的速度(应该是现在最快?)。我让它用 Rust 写冒泡排序,几乎是秒出。当然目前 Diffusion 文本模型最大的问题还是性能太低了,很难干活。 目前除了 Seed Diffusion Preview以外,还有最知名的 Mercury Coder 和 Google 的 Gemini Diffusion. 一会也给大家带来简单的测评。 字节的发布blog: 在线体验地址:
#字节跳动
#文本 Diffusion 模型
#Seed Diffusion Preview
#AI
#技术测评
分享
评论 0
0
karminski-牙医
1个月前
看到个特别好用的库,可以从网页中抽取数据——llm-scraper 这个库支持OpenAI API 格式的模型,可以将网页中的内容抽取为JSON。甚至还支持流式输入。 地址:
#llm-scraper
#网页数据抽取
#JSON
#OpenAI API
#流式输入
分享
评论 0
0
karminski-牙医
1个月前
发现了个开源多邻国!——wordpecker-app 这个项目不但有背单词功能,而且最重要的是它使用TTS大模型,做了个语音 Agent, 你可以与 LLM 导师就你的词汇进行实际对话。练习发音,提问,并通过自然语言获得即时反馈! 地址:
#开源
#多邻国
#语音Agent
#TTS
#LLM
分享
评论 0
0
karminski-牙医
1个月前
kimi-k2 在 openrouter 的使用趋势. 真的是 moonshoot 了
分享
评论 0
0
karminski-牙医
1个月前
就这??? 马斯克你认真的吗? 来看 Grok4 实测! 我原本打算用新试题, 突然转念一想, 万一Grok4 延续了 Grok3 的辉煌传统怎么办? 于是直接用了经典到都出包浆的我的那个20小球在七边形里面弹跳的实体快速来了一遍. 结果, 3次生成代码中, 2次 Grok4生成的代码甚至有语法错误. 唯一一次成功的是这个样子. 为了给不了解这个测试的朋友做对比, 我放了 DeepSeek-R1 作为参考, 注意哦,这个甚至不是 DeepSeek-R1-0528, 而是今年年初的那个老版本 R1.... 从目测来看, 大概是今年第一季度所有大模型中, 写代码能力的中间水平, 接近GPT-4o 或 kimi-1.5-long-thinking 之间. 根本不是第一梯队的水平, 更别提跟现在的 Claude-4 或者 Gemini-2.5-pro 比了..... 建议 AIME25 那个数学能力也谨慎看待, 说不定又是一个过拟合的结果. 更多测试我随后放出, 希望 Grok4 能打我的脸. 但这编程水平....呵呵. #Grok4
分享
评论 0
0
karminski-牙医
1个月前
做RAG的朋友一定要看看 Google 这个新论文——MUVERA:让多向量检索与单向量搜索一样快 大家在RAG的检索内容过程都会遇到这种情况,如果用传统搜索(例如ElasticSearch),文档 = 1 个向量 → 快速但不准确。如果用向量数据库,现代多向量搜索:文档 = 数百个向量 → 准确但极其缓慢。 于是谷歌提出了 DFEs (固定维度编码) 将多个向量转换为单个固定长度的向量,同时保留相似性关系。其神奇之处在于,两个 FDE 向量之间的点积近似于多向量集合之间的原始 Chamfer 相似度。(Chamfer 相似度是啥详见文尾的文章) MUVERA 的一个关键优势是 FDE 变换是无数据的。这意味着它不依赖于特定的数据集,使其既能够抵抗数据分布的变化,又适合流式应用。此外,与模型产生的单向量不同,FDE 保证在指定的误差范围内近似真实的 Chamfer 相似度。因此,在重排序阶段之后,MUVERA 保证能够找到最相似的多向量表示。 所以这个新方法能有效地提升RAG检索阶段的效率,现阶段连Python库都有了,需要的同学可以试试。 论文地址: Chamfer 相似度: python库:
分享
评论 0
0
karminski-牙医
1个月前
卧槽, 真的 SOTA 了, 正在准备做一个 PDF 转 Markdown 的领域大模型评测, 结果我发现 ChatDOC 的 OCRFlux-3B 在我测试的所有场景均达到了现阶段最理想的效果. 下面直接为大家带来实测: 场景A: 让我们直接来现阶段的 PDF 转化试金石——发票转 Markdown 可以看到, 重要的 购买方, 单价, 价税合计, 销售方均十分准确, 并且没有把印章错误的当成内容. 而且形成的 Markdown 表格行列准确, 甚至还有合并单元格的表格. 以往的测试别说表格, 连内容都不一定识别准确. 更别提生成正确的 Markdown 表格了. 当然也不是没有瑕疵. 如果 OCRFlux 可以把表头和页脚也能准确识别进去就完美了. 现在生成的内容用来识别普票还是专票还是有困难的. #OCRFlux #ChatDOC #Markdown #PDF
分享
评论 0
0
karminski-牙医
1个月前
它来了!Apple的 diffusion 大模型它来了!—— DiffuCoder-7B 总计放出了3个模型: DiffuCoder-7B-Base (基座模型) DiffuCoder-7B-Instruct (后训练模型) DiffuCoder-7B-cpGRPO (cpGRPO 优化模型) 这些模型都是基于 Qwen2.5-Coder-7B 魔改的 ( Qwen3-Coder 刻不容缓,Qwen 你赶紧啊) 从论文上看,这次的模型仍然是研究向的,而且由于目前 diffusion 文本模型均处于研究阶段,商业水平的 diffusion 文本模型也主要用来处理快速生成文本的场景。是没有办法跟 transformer base 的头部文本模型对比的。 当然,官方还是跑了分的,评分见图片。其中 BigCodeBench-Hard 只有12.8 分。作为对比,Qwen2.5-Coder-7B-Instruct 有 20.3 分,DeepSeek-R1-0528 有35.1 分。它甚至用 Qwen2.5-Coder-7B 基座模型魔改完了还没有Qwen自己后训练的 Instruct 模型分数高。所以这个模型真的只是研究向的。 那么,这次 Apple 发布的 DiffuCoder 主要研究了哪些问题?如下: dLLMs 的生成模式与 AR 模型有何不同? 在建模不同数据模态(如代码与数学)方面有何差异? dLLMs 可以有多多样化,后训练应该如何设计? 然后他们发现: dLLM 虽然是diffusion 的,但由于语言逻辑顺序的原因,会表现出从左到右的偏见。 经过预训练后,我们表明代码任务比数学任务诱导的自回归性要弱。 在 dLLMs 中,改变采样温度不仅影响采样到的标记(如在 AR 模型中那样),还会改变生成顺序本身。 最后给不知道什么是 diffusion 模型的同学温习下:diffusion架构的文本模型原理基于扩散过程(噪声逐步去除)通过迭代去噪生成文本,而且迭代可以并行,因此速度很快。看上去就像刮奖一样把字刮了出来。 目前 diffusion 文本模型有:Mercury ,LLaDA-8B,Dream 7B,gemini-diffusion 等等。 模型地址: 论文地址: repo地址:
分享
评论 0
0
karminski-牙医
2个月前
Qwen 混合模型来啦!—— Qwen VLo Lin Junyang 前几天还说要不要搞一个 Qwen3 混合模型,结果今天就来了。 Qwen VLo 是一个多模态统一理解与生成模型。这一全新升级的模型不仅能够“看懂”世界,更能基于理解进行高质量的再创造。即,他是一个同时支持图片输入和输出的模型。 目前还是预览阶段,能在 Qwen Chat 上试用。另外输出的图片有的偏黄色,所有社区也有人说是不是用GPT-image-1的输出来训练了。 blog:
分享
评论 0
0
karminski-牙医
2个月前
看到个特别有用的工具——LocalSend 这个工具可以让你在本地网络上(同一个局域网)与任何设备分享文件和消息。目前支持 Win, MacOS, Linux, Android, iOS. 地址:
分享
评论 0
0
karminski-牙医
2个月前
整个活,用 deepseek-r1 生成了个 AI 编辑器眼中的其它编辑器哈哈哈哈哈
分享
评论 0
0
karminski-牙医
2个月前
看到个能持续学习的 python 文本分类器——adaptive-classifier 这个分类器最大的特点是允许动态添加新类别并从示例中持续学习,不需要大改。非常适合有不断为新文章分类并且类别还在不断增加的场景,比如你正在构建一个内容社区,或者给自己的笔记系统分类。 作者上传了 pip 包, 直接 pip install adaptive-classifier 就能用 地址: 甚至作者还写了教程:
分享
评论 0
0
karminski-牙医
2个月前
来看一个新的本地大模型前端,Jan 这个项目可以接 OpenAI 一致接口的任何模型,并且还能直接从 huggingFace 上下载模型用。项目使用 Tauri 构建,而且是开源的。支持 windows, MacOS, Linux 地址:
分享
评论 0
0
1
2
3
下一页
个人主页
通知
我的投稿
我的关注
我的拉黑
我的评论
我的点赞