#自然语言生成

4周前

Qwen 开源 Qwen3-Omni-30B-A3B-Captioner，不明白这里的 Captioner 是什么意思，让 GPT 解释了下 Captioner”指的是“音频描述生成器”——一种专门做音频描述（audio captioning）的模型：输入任意一段音频，模型用自然语言生成对声音场景的细致描述，而不是逐字把人声转成文本举个例子：给模型一段街头录音，ASR会输出“有人说：‘往左走’”；而Captioner会输出“傍晚的繁忙街道上，车辆驶过伴随间歇的喇叭声，远处有人交谈”。

#Qwen3-Omni-30B-A3B-Captioner #音频描述生成器 #audio captioning #声音场景描述 #自然语言生成

1个月前

DeepSeek V3.1 出现了 Glitch Tokens 的问题，随机高频冒出 " extreme" / "极" / "極"。在 post-training 时代之前，Glitch Tokens 通常指的是某些在自然语料里极少/异常的 token，会扰乱本应正常的生成行为。在 post-training 时代，大量自制 DSL / 控制标记作为 added tokens 被引入，用来更精细地驱动模型行为，例如 <Think>、<Image>、<Vision> 。这些 DSL token的初衷是提升自然语言指令的可控性和准确性。 DS 的 Glitch Tokens 问题，看着非常像把 " extreme" / "极" / "極" 这类本是自然语言token，在某些上下文里学成了 DSL token，从而被异常地高概率选中。一些思考：自制 DSL 的本意是增强自然语言的准确性与可控性。但当 DSL 标记越加越多，如果部分 Glitch Tokens 与这些控制语义（无论显式还是隐式）发生了错误耦合，就可能在推理时反过来干扰自然语言的正常分布，值得警惕。

深度学习模型升级引发AI能力大跃进，行业迎新变革· 108 条信息

#DeepSeek V3.1 #Glitch Tokens #DSL token #模型干扰 #自然语言生成