时政
财经
科技
虚拟货币
其他
登录
#自然语言生成
关注
马东锡 NLP
1周前
DeepSeek V3.1 出现了 Glitch Tokens 的问题,随机高频冒出 " extreme" / "极" / "極"。 在 post-training 时代之前,Glitch Tokens 通常指的是某些在自然语料里极少/异常的 token,会扰乱本应正常的生成行为。 在 post-training 时代,大量自制 DSL / 控制标记作为 added tokens 被引入,用来更精细地驱动模型行为,例如 <Think>、<Image>、<Vision> 。这些 DSL token的初衷是提升自然语言指令的可控性和准确性。 DS 的 Glitch Tokens 问题,看着非常像把 " extreme" / "极" / "極" 这类本是自然语言token,在某些上下文里学成了 DSL token,从而被异常地高概率选中。 一些思考: 自制 DSL 的本意是增强自然语言的准确性与可控性。但当 DSL 标记越加越多,如果部分 Glitch Tokens 与这些控制语义(无论显式还是隐式)发生了错误耦合,就可能在推理时反过来干扰自然语言的正常分布,值得警惕。
深度学习模型升级引发AI能力大跃进,行业迎新变革· 58 条信息
#DeepSeek V3.1
#Glitch Tokens
#DSL token
#模型干扰
#自然语言生成
分享
评论 0
0
个人主页
通知
我的投稿
我的关注
我的拉黑
我的评论
我的点赞