YL (Yucheng Liu) 0 关注者 关注 1天前 我们在 X BoostClub 尝试用「LLM as Judge」来自动化评估推文质量,结果发现一个有趣的现象:Gemini 模型极其厌恶“薅羊毛”、“白嫖”这类词,打分极低,尽管这些推文流量很高。而 Grok 就相对中立。🤖 AI 模型的“价值观”正在直接影响商业决策,这是模型对齐(Alignment)在现实世界最直接的体现。 #LLM as Judge #Gemini模型 #价值观影响 #模型对齐 #商业决策 前往原网页查看