orange.ai

orange.ai

0 关注者

8个月前

卧槽,我在 Google Gemini Thinking 中竟然体验到了 DeepSeek R1 Zero 的论文里提到的语言的混乱现象 出现了很多种,完全分辨不出来是什么语言... 难道 Google 这个思考模型也是靠大量 RL 搞出来的吗?

#Google Gemini #DeepSeek R1 Zero #语言混乱 #思考模型 #RL

相关新闻

placeholder

dontbesilent

1周前

欢迎大家选购三星盖乐仕系列平板电脑 ✨ Galaxy AI 已系统级集成 Google Gemini

placeholder

𝙩𝙮≃𝙛{𝕩}^A𝕀²·ℙarad𝕚g𝕞

3周前

arXiv预印本2509.04259,探讨了在线强化学习(RL)在fine-tuning基础模型时为什么比监督微调(SFT)遗忘更少的问题 RL’s Razor:在所有解决新任务的策略中,RL偏好KL散度(Kullback-Leibler divergence)相对于原始模型最小的解决方案

placeholder

宝玉

3周前

容易遇到“捞女”跟文科理科没关系吧,还是谈恋爱晚了谈恋爱少了,早点谈多谈,至少多接触异性就不容易被美色迷糊,本质还是 RL(强化学习)+ 运气(概率)

placeholder

Oasis Feng

3周前

ColorOS 仿 Google Gemini 这个「识屏提问」的功能还算堪用。 不过为啥不能直接给我链接呢?

placeholder

买号管家

1个月前

Google Gemini Nano banana 账号图片AI模型 已经在Gemini上线可用,立即获取账号:👇

© 2025 news.news. All rights reserved. 0.0584 秒. v1.0.46
我的评论