时政
财经
科技
登录
#数据量
关注
宝玉
2个月前
问:宝玉老师,我想请教个rag的问题。我们想通过收集时事新闻报道编写分析报告,如果采用RAG方案对新闻进行处理,数据量提供多大出来的报告比较合适,亦或者这个需求有什么别的更好的处理方案吗 答: 通常在考虑使用 AI 解决问题时,我的第一个建议是先不要考虑 RAG 这些因素,而是回归聚焦到问题本身,搞清楚要解决什么问题,然后再看要不要使用 AI 的方案,以及怎么使用 AI 的方案。 就拿这个问题来说,根本需求是:“收集时事新闻报道编写分析报告”。如果这个任务没有 AI 的时候我们怎么做? 我能想到的做法可能是这样的,要写一个某个话题的分析报告,根据这个话题去找相关的时事新闻报道,从中挑出几篇最相关的质量最好的,基于它们去分析去撰写报告。 这里面有两个核心的子任务: 1. 根据主题去检索和排序 2. 根据检索和筛选出来的内容去生成报告。 这两点恰恰是 RAG 要解决的问题,检索、排序和生成。 那么回到原始的问题,这个需求是不是就要用 RAG 呢?数据量提供多大出来的报告比较合适? 我的建议是: 1. 不一定要用 RAG,可以用 RAG 结合传统搜索工具 2. 数据量多大比较合适取决于模型 3. AI 生成时,输入内容和生成结果最好都有专业人士辅助 虽然 RAG 是要解决检索、排序和生成的问题,但现实是工程难度很高,实际效果并不算非常理想,难点在于: 1. 如何检索出真正相关的内容,并且摘录出最相关的部分 2. 上下文窗口长度有限,只能提供一部分内容作为上下文给大语言模型处理,但是选择哪些内容是很有挑战的。 就我对大语言模型的了解,现在无论是在检索排序,还是在生成,AI 的结果都不能稳定的超过专业人士的水平,但如果专业人士借助 AI,是可以做到效率高质量也稳定的。 所以这个任务,现阶段想完全基于 RAG 实现自动化检索生成,也不是不可以,但是要接受质量不稳定。 如果想要质量好,就要有经验的人工介入,帮助 AI 去检索和排序、找出最相关最有价值的内容传给大模型的内容去生成,对于生成的结果再去审查和完善。另外要用好的模型。
#RAG
#时事新闻
#分析报告
#AI方案
#问题解决
#数据量
分享
评论 0
0
Tigris 会讲课教授是好老师
5个月前
你以为DeepSeek的AI奇迹,只靠神秘算法? 大错特错! 真正令他们领先的秘诀,恰恰是连CEO梁文峰都亲自下场干的“脏活” —— 数据标注! 与那些轻率的 “AI玄学” 论调截然相反,DeepSeek R1的突破,根植于海量的优质人工生成和合成数据。 事实上,DeepSeek模型在开源领域,正以惊人的数据量刷新纪录: 1️⃣60万条核心推理数据 (驱动模型深度思考) 2️⃣20万条监督微调 (SFT) 数据 (提升模型指令跟随能力) 3️⃣规模惊人的RLHF人工偏好数据集 (据估计至少300-500万条样本!远超同行,塑造更符合人类价值观的AI) 4️⃣关键的CoT链式推理合成数据 (高质量“冷启动”燃料,加速模型效率飞升) 正是这史无前例的高质量数据投喂,才最终成就了DeepSeek R1在低成本下,推理能力的惊人涌现 ,开创AI新范式! 如此规模的优质合成数据,究竟从何而来? 答案或许已呼之欲出。
#DeepSeek
#AI发展
#数据标注
#AI玄学
#CEO参与
#开源领域
#人工智能
#数据量
#模型进步
分享
评论 0
0
个人主页
通知
我的投稿
我的关注
我的拉黑
我的评论
我的点赞