karminski-牙医

karminski-牙医

0 关注者

6个月前

Unsloth 刚刚发布了一个强化学习小教程 教程从吃豆人游戏触发,然后简单介绍 RLHF, PPO 再到 GRPO, 然后告诉你如何用 GRPO 开始训练,是个不错的入门小文章。 地址:

#强化学习 #吃豆人 #RLHF #PPO #GRPO #教程 #入门

相关新闻

placeholder

howie.serious

4周前

gemini 最佳实践:if 深度思考,then 信息图总结。 每次和 gemini 聊完一个话题,如果是多轮的层层深入的对话,最后有所收获的话,那就多走一步:选择 nano 🍌, > 基于我们前面的对话,画一张信息图,整理核心观点 例如,刚才和 ai 聊 llm 强化学习对于父母的启发。语言是模糊的,思想是在多轮对话中逐渐清晰的,和 llm 多轮对话当然是有启发的,但多了信息图总结这一步,

placeholder

铁锤人

4周前

今天我小锤教你们如何烤鸭😆 1. 生成提示词 2. 使用Nano banana Pro 生成图片 3. 使用即梦图生视频功能 4. 剪映配乐 提示词评论区见😂

placeholder

𝗖𝘆𝗱𝗶𝗮𝗿

4周前

再也不为构图发愁

placeholder

铁锤人

1个月前

学习 Claude skill,开一个帖子记录一下 claude code 太贵了 第一步咸鱼买个10 块钱的额度。避免一时上头直接 200 刀花了 第二步根据闲鱼上的配置写入 api key echo 'export ANTHROPIC_BASE_URL=""' >> ~/.zshrc echo 'export ANTHROPIC_AUTH_TOKEN="你的API密钥"' >> ~/.

placeholder

卫斯理

1个月前

使用Notion + 大家一个静态网页 ​ ​考验排版的时候到了……

© 2025 news.news. All rights reserved. 0.0361 秒. v1.0.46
我的评论