#数据分析

[论文解读] DeepAnalyze: Agentic LLM 助力自主数据科学 来自中国人民大学和清华大学团队的论文,提出 DeepAnalyze-8B 模型,基于 Agentic LLM 实现从原始数据到深度报告的自主数据科学,突破传统固定流程的局限。 核心贡献 · DeepAnalyze-8B:80亿参数开源模型,自主协调规划、数据理解、代码生成等任务,通过提示或微调支持数据问答、建模及开放研究。 · 课程式训练:从单一技能(推理、代码)到综合能力,结合强化学习解决反馈稀疏问题。 · 轨迹生成框架:通过多智能体交互和关键词引导,从数据集生成50万条高质量训练样本(DataScience-Instruct-500K,已开源)。 · 实现从数据清洗到报告生成的端到端流程。 方法概述 基于 DeepSeek-R1-0528- Qwen3-8B,模型通过五类行动标记(如⟨Analyze⟩规划、⟨Code⟩代码生成)循环优化输出。训练分两阶段: 1. 单一技能微调:监督学习提升推理、数据理解、代码能力,关键词优化增强表格处理。 2. 多技能训练:交互轨迹微调后,用.GRPO 强化学习,结合规则、准确性和 LLM 评分优化。 训练在 NVIDIA A800 GPU 上完成,支持 32K tokens 序列,轨迹从 Spider/BIRD 等数据集生成并过滤。 主要成果 在12个基准测试中,DeepAnalyze-8B 表现优异: · 完整流程(DataSciBench):成功率59.91%,完成率66.24%,接近GPT-4o(66.31%),数据准备(71.68%)和可视化(69.09%)领先。 · 分析/建模(DSBench):准确率30.04%,成功率90.63%,超GPT-4o智能体。 · 多步推理(DABStep):准确率38.88%,远超ReAct+GPT-4o(15.77%)。 · 深度研究(DABStep-Research):内容得分3.81/5,格式4.39/5,优于GPT-4o(3.05/5),案例中识别18-27%费用优化和35-42%欺诈降低潜力。 · 代码/表格问答:代码生成61.7%(超GPT-4-turbo 53.9%),表格问答64.47%(SOTA)。 消融实验显示课程训练提升23.54%,轨迹优化增4.57%。模型、代码、数据集已开源。 论文地址:
Y11
1个月前
在社交媒体营销这个领域,我见过不少企业栽跟头,其实很多时候,他们并非不懂“该做什么”,而是没避开那些“不该做的事”。 我发现这一点尤其关键。 很多企业主会花大量时间研究各种社交媒体指南,看别人怎么成功,怎么发内容、搞互动。但根据我的观察,真正决定营销效果的,往往是那些我们“不做什么”的选择。 首先,最常见的错误是“盲目跟风”。 看到别人做什么火,自己就马上模仿,完全不考虑自己的品牌定位和目标用户。 每个品牌都有自己的特色,硬搬别人的模式,只会让自己变得不伦不类,反而失去了自己的辨识度。 其次是“只发广告,不做互动”。有些企业把社交媒体当成了单向的广告投放渠道,只想着推销产品,却很少和用户交流。 用户是活生生的人,不是冰冷的消费机器,他们需要被尊重、被理解。 只有真诚地和用户互动,才能建立起信任,而信任,才是营销的基石。 再者,“内容没有价值”也很要命。 很多企业发的内容,要么是空洞的口号,要么是和用户毫不相关的信息。 用户刷社交媒体是为了获取价值,无论是知识、娱乐还是情感共鸣。 如果我们提供的内容对他们没用,他们自然会划走,而且是再也不会回来的那种。 还有一个容易犯的错误是“忽视数据”。 社交媒体平台提供了很多数据,比如阅读量、互动率、用户画像等等。但有些企业从不看这些数据,凭感觉发内容,凭感觉调整策略。 数据就像航海的罗盘,能告诉我们方向对不对,哪里需要调整。不看数据,就好比在大海里没有罗盘,很容易迷失方向。 最后,“缺乏耐心和坚持”也会导致失败。 社交媒体营销不是一蹴而就的事情,它需要时间积累,需要持续投入。有些企业一开始热情高涨,发了几天内容没效果就放弃了,这是非常可惜的。成功从来都不是偶然的,它需要我们一步一个脚印,不断优化和坚持。 其实,社交媒体营销的核心很简单,就是“以用户为中心”。我们要思考的是:我们能给用户带来什么?我们如何和用户建立连接?我们如何让用户记住我们?只要抓住了这几点,避开那些常见的“雷区”,成功就会离我们越来越近。 希望这些经验能给大家带来一些启发。营销之路没有捷径,但只要方向对了,方法得当,坚持下去,就一定能看到成果。
Y11
1个月前
在内容创作领域,很多人遇到瓶颈,并非能力不足,而是视野局限。 就像登山,若只盯着眼前的山路,容易迷失方向;若能看到更高处的风景和别人的路径,便多了许多可能性。以下是一些实用的方向,帮助你突破现状: 首先,学会“拆解优秀案例”。 打开任何平台,用关键词搜索与你目标相关的内容(比如想提升涨粉率,就搜“高转粉率爆款”),找出近期表现突出的博主。 重点研究他们单篇内容的关键数据:涨粉多少、转粉率多高、引导入群人数有多少。把这些数据记录下来,就像拆解别人的成功密码,这些数字背后藏着他们的运营逻辑。 其次,建立“数据对比表”。 把收集到的多个案例数据整理到一张表里,比如“涨粉数”“互动率”“完播率”等,然后找到你设定的“北极星指标”(比如涨粉、变现、私域引流等),筛选出排名前五的案例。这些案例就像标杆,你需要思考:为什么他们能成为“头部”?他们的内容结构、选题方向有什么共同点? 接着,进行“深度复刻练习”。把这五个标杆案例的选题、脚本、拍摄手法、剪辑节奏等,像做实验一样原封不动地模仿一遍。注意不是简单抄袭,而是拆解每个环节的“底层逻辑”:比如开头3秒如何抓住注意力?中间用什么故事或观点引发共鸣?结尾如何引导用户行动?通过“刻意练习”,你会逐渐理解内容创作的“骨架”。 然后,从“模仿”到“创新”。当你对标杆案例足够熟悉后,就可以进入“二次创作”阶段。去看这些案例的评论区,记录用户常问的问题、高频讨论的话题。结合自己的经验和认知,把这些问题转化为新的选题。比如别人讲“职场沟通技巧”,你可以结合自己的行业,讲“互联网行业的沟通潜规则”。这样既保留了爆款的“基因”,又融入了你的独特价值。 最后,关于“人设”的思考。真正的人设是在长期创作中自然形成的,这需要你在模仿期结束后,加入自己的思考和风格。但如果你的目标是做矩阵转化(比如多个账号同时引流私域),那么“标准化复制”就足够了——只要每个账号能稳定产出符合标杆逻辑的内容,即使人设不同,也能形成规模化的引流效果。 内容创作就像学游泳,看再多理论不如下水练习。当你把“模仿-拆解-创新”这三步走通,数据会慢慢给你反馈。记住:优秀从来不是凭空出现的,而是站在别人的肩膀上,一步步试出来的。与其空想“做不起来”,不如现在就开始拆解第一个标杆案例,行动永远比焦虑更有力量。
Y11
1个月前
看懂推荐算法:从数据到内容,它如何影响你看到的世界 推荐算法就像一位智能管家,每天根据你的喜好筛选信息。想知道它是如何工作的吗?我们用简单的步骤拆解这个过程,或许能帮你更好地理解信息如何触达你。 第一步:收集“原材料”——数据从哪里来? 算法的起点是数据,就像厨师需要食材一样。推荐系统主要依靠三类“原料”: 社交关系网:你关注了谁、谁关注了你,朋友之间的互动,这些关系就像一张无形的网,告诉你“你是谁的圈子”。 互动记录:你点赞、转发、评论、收藏的内容,这些行为是最直接的“喜好证据”。 个人信息:你的头像、简介、浏览历史,甚至你忽略了什么内容——这些细节都在悄悄告诉系统“你可能喜欢什么”。 第二步:给数据“贴标签”——特征工程如何理解你? 原始数据就像一堆杂乱的积木,需要“装修”成有用的信息。这一步被称为“特征工程”,系统会用各种工具给内容和用户打上标签: 社交关系图谱:实时追踪谁和谁互动,比如A关注了B,B又转发了C的内容,这些关系会被标记出来。 兴趣分组:通过模型把你和内容分到不同的“圈子”,比如“科技爱好者”“美食圈”,就像学校里的兴趣小组。 信任与安全:过滤垃圾信息、广告和你不喜欢的内容,就像门卫筛选访客。 第三步:筛选候选内容——从“海量库存”中挑重点 内容池里可能有成千上万条信息,系统需要先“捞”出可能适合你的候选内容,主要有两类: 你关注的人:从你已关注的圈子里选,比如你关注的博主发了新动态。 你可能感兴趣的人:系统会根据你的喜好,推荐一些你还没关注但可能合得来的内容,比如你常看科技,它可能推荐相关领域的新人。 这一步就像整理书架,避免你只看到同一类书,让内容更多元。 第四步:打分排序——神经网络如何决定“谁排前面”? 候选内容会被送进一个“打分机器”(神经网络),它会根据你可能的反应来评分,比如: 你会点赞这条内容吗? 会转发给朋友吗? 会花时间看完吗? 分数越高,内容就越容易排在你前面,就像考试分数高的学生更容易被老师注意到。 第五步:人工“微调”——让体验更人性化 AI打分后,人工规则会介入,让推荐更符合人的需求: 避免你连续刷到同一个人的内容,防止“审美疲劳”。 平衡内容类型,比如不会全是视频,也不会全是文字。 再次检查安全,过滤掉不合适的内容。 这些调整就像帮你整理房间,让环境更舒适。 第六步:最终呈现——你的“推荐页”是怎么来的? 最后,所有筛选好的内容会和广告、“关注谁”的建议一起,混合成你的“为你推荐”页面。你看到的每一条内容,都是算法和人工共同作用的结果。 普通人如何利用算法逻辑? 了解算法后,普通人也能找到自己的“增长密码”: 1. 专注一个领域:比如只分享摄影技巧,算法会更快识别你的定位。 2. 做有价值的内容:能引发点赞、评论的内容,更容易被推荐。 3. 积极互动:在领域内回复他人,能让更多人注意到你,提升可信度。 算法不是“敌人”,而是一位需要“沟通”的伙伴。理解它的逻辑,你就能更高效地表达自己,让有价值的内容被更多人看到。