我们在 X BoostClub 尝试用「LLM as Judge」来自动化评估推文质量，结果发现一个有趣的现象：Gemini 模型极其厌恶“薅羊毛”、“白嫖”这类词，打分极低，尽管这些推文流量很高。而 Grok 就相对中立。🤖 AI 模型的“价值观”正在直接影响商业决策，这是模型对齐（Alignment）在现实世界最直接的体现。

#LLM as Judge #Gemini模型 #价值观影响 #模型对齐 #商业决策

相关新闻

小牛

18小时前

李阳是赚了，还是亏了？

德潤傳媒

1天前

花560万投的酒店,一天只卖3017元!进退两难,我到底该怎么办？！

Jason

5天前

张雪峰公司收回所有肖像权使用权

猫神

4个月前

董小姐都这样了，还不退休，为啥呢？

小牛OTC

4个月前

段永平回复为什么卖出特斯拉文字视频版。

关联事件

OpenAI新德里发布会：ChatGPT语音翻译功能引发热议

869

在新德里举行的活动中，OpenAI宣布即将推出o3-Pro模型，取代现有的o1-Pro模型，旨在提升ChatGPT的推理能力和功能。同时，OpenAI还发布了ChatGPT高级语音模式的升级，新增了自然停顿、重音处理、同理心表达和双向自动翻译等功能。这一更新已向所有付费用户开放，预计将进一步增强ChatGPT的用户体验和市场竞争力。随着用户基数的不断扩大，OpenAI的这些新功能引发了广泛关注，尤其是在人工智能语音交互领域的应用潜力。