1天前

我们在 X BoostClub 尝试用「LLM as Judge」来自动化评估推文质量,结果发现一个有趣的现象:Gemini 模型极其厌恶“薅羊毛”、“白嫖”这类词,打分极低,尽管这些推文流量很高。而 Grok 就相对中立。🤖 AI 模型的“价值观”正在直接影响商业决策,这是模型对齐(Alignment)在现实世界最直接的体现。

相关新闻

关联事件