#推荐算法

很多X推友可能不知道,早在2023年,X的博客网站就公开过X/Twitter的推荐算法,如果你下定决心要认真运营X账号,一定要了解背后的算法流量机制,更有的放矢地制作优质的内容。 一. 整体逻辑:X如何筛选推文? X每天要从 5 亿条推文中筛出你可能感兴趣的几十条,整个流程分为三步: 挑选候选推文:从海量内容里找出约 1500 条可能和你相关的推文(既包括你关注的人,也包括没关注的人)。 机器学习排序:用一个有 4800 万个参数的神经网络,对这 1500 条推文打分,预测你会不会点赞、转发或回复。 规则过滤与混合展示:过滤掉你不想看的内容(比如已屏蔽用户、成人内容、重复推文),再把广告、推荐关注等内容一起混合显示。 二、候选推文的来源 可以理解为“算法先去哪里找素材”。分两大类: 1. 网络内推荐(你关注的人) 从你关注的人中挑最新、最相关的推文,使用一个叫 Real Graph(真实关系图) 的模型来预测“你和作者之间的互动可能性”。你和谁互动多,他的内容就更容易被推给你。 2. 网络外推荐(你没关注的人) 这是算法的重点创新部分,靠两种方式: (1)社交传播图法(GraphJet):看你关注的人最近和哪些推文互动,再看那些推文是谁发的。简单说,“朋友的朋友喜欢的东西” 也可能推荐给你。 (2)兴趣相似度法(嵌入空间 Embedding):用算法把所有人和所有推文映射成数字向量(“兴趣坐标”),看你与某个话题或用户的相似度。 其中最重要的是 SimClusters,它把全站分成约 14.5 万个兴趣社区,比如“科技圈”“韩流圈”“新闻圈”等,每三周更新一次。推文和用户都被标记在哪些社区中,一条推文在某个圈子越火,就越可能被推给同类用户。 三、推文的排序逻辑 当系统得到约 1500 条候选推文后,会用一个大型神经网络模型来打分。 这个模型的目标是:预测你与每条推文的互动概率(点赞、转发、回复等),并据此排序。 它考虑了上千个特征,比如你最近浏览的内容、与作者的关系、推文发布时间、主题类型等。 四、展示前的“微调与平衡” 为了让时间线更自然、不过度偏向某些内容,算法会做一些“人性化调整”: 去重与屏蔽:屏蔽被拉黑/静音账号的内容,或你已经看过的推文。 内容均衡:保持网络内与网络外内容大致各占一半。 作者多样性:防止同一个人连续刷屏。 负反馈降权:你曾经点“不感兴趣”的内容会被系统记住。 社交背书机制(Social Proof):如果你关注的人没和某条推文有任何二度关系(比如点赞或关注作者),这条推文可能不会被推荐。 对话串联:在回复下方显示原帖,帮助理解上下文。 实时更新:如果推文被编辑,会替换为新版本。 五、最后一步:混合上架 当所有推文都排序、过滤完后,系统还要把广告、关注推荐、提示等非推文内容混合在一起,然后发回你的设备。整个流程在后台每天运行 约 50 亿次,平均每次只需 1.5 秒。 一句话总结: 从原始社交行为数据 → 提取兴趣与信任特征 → 生成候选推文 → 神经网络打分排序 → 规则过滤 → 内容混合展示。
Susan STEM
1个月前
程序员现在真的要开始深度思考一个问题: 算力大基建铺好了,这么多海量算力——到底要用来干什么? 我们都觉得自己是小虾米,跟“国家级基建”“能源部批文”这些大词没关系。 可真的无关吗? 最后这些算力要落地,不还是靠一行行代码、一段段逻辑来跑? 谁在写逻辑?不就是我们吗。 我那天就在想,几年前一个闺蜜跟我说: “我觉得你肯定喜欢那个东北雨姐。” “我怎么会喜欢这种..." 但她还真说对了,我确实背着她在看东北雨姐的视频, 连她那个东北小老公我也挺喜欢的。 我后来就开始想: 如果要让推荐算法算出我这种又隐秘又细微的小心思, 要消耗多少算力? 得跑多少数据、训练多少模型、调多少参数? 我们用几百兆瓦的电,几万个GPU, 只是为了精确预测一个人深夜会偷偷喜欢哪个网红? 这就是“智能时代”的伟大成就? 把全世界人所有最隐秘的小癖好、恶趣味、情绪波动全都算出来, 然后精准地推荐回给他们, 让他们沉溺其中,再看一条、再买一点? 这就是海量算力的用途? 这就是我们程序员亲手写出来的文明形态? 我不反感推荐算法,也不是不懂商业逻辑。 但当我们能支配的能量已经大到可以模拟宇宙、 可以预测生态系统、 却被用来计算“谁会多看一眼谁”的时候, 你不得不开始问: 我们到底在建什么? 是算力大厦,还是注意力监狱? 敬请关注:
Y11
1个月前
看懂推荐算法:从数据到内容,它如何影响你看到的世界 推荐算法就像一位智能管家,每天根据你的喜好筛选信息。想知道它是如何工作的吗?我们用简单的步骤拆解这个过程,或许能帮你更好地理解信息如何触达你。 第一步:收集“原材料”——数据从哪里来? 算法的起点是数据,就像厨师需要食材一样。推荐系统主要依靠三类“原料”: 社交关系网:你关注了谁、谁关注了你,朋友之间的互动,这些关系就像一张无形的网,告诉你“你是谁的圈子”。 互动记录:你点赞、转发、评论、收藏的内容,这些行为是最直接的“喜好证据”。 个人信息:你的头像、简介、浏览历史,甚至你忽略了什么内容——这些细节都在悄悄告诉系统“你可能喜欢什么”。 第二步:给数据“贴标签”——特征工程如何理解你? 原始数据就像一堆杂乱的积木,需要“装修”成有用的信息。这一步被称为“特征工程”,系统会用各种工具给内容和用户打上标签: 社交关系图谱:实时追踪谁和谁互动,比如A关注了B,B又转发了C的内容,这些关系会被标记出来。 兴趣分组:通过模型把你和内容分到不同的“圈子”,比如“科技爱好者”“美食圈”,就像学校里的兴趣小组。 信任与安全:过滤垃圾信息、广告和你不喜欢的内容,就像门卫筛选访客。 第三步:筛选候选内容——从“海量库存”中挑重点 内容池里可能有成千上万条信息,系统需要先“捞”出可能适合你的候选内容,主要有两类: 你关注的人:从你已关注的圈子里选,比如你关注的博主发了新动态。 你可能感兴趣的人:系统会根据你的喜好,推荐一些你还没关注但可能合得来的内容,比如你常看科技,它可能推荐相关领域的新人。 这一步就像整理书架,避免你只看到同一类书,让内容更多元。 第四步:打分排序——神经网络如何决定“谁排前面”? 候选内容会被送进一个“打分机器”(神经网络),它会根据你可能的反应来评分,比如: 你会点赞这条内容吗? 会转发给朋友吗? 会花时间看完吗? 分数越高,内容就越容易排在你前面,就像考试分数高的学生更容易被老师注意到。 第五步:人工“微调”——让体验更人性化 AI打分后,人工规则会介入,让推荐更符合人的需求: 避免你连续刷到同一个人的内容,防止“审美疲劳”。 平衡内容类型,比如不会全是视频,也不会全是文字。 再次检查安全,过滤掉不合适的内容。 这些调整就像帮你整理房间,让环境更舒适。 第六步:最终呈现——你的“推荐页”是怎么来的? 最后,所有筛选好的内容会和广告、“关注谁”的建议一起,混合成你的“为你推荐”页面。你看到的每一条内容,都是算法和人工共同作用的结果。 普通人如何利用算法逻辑? 了解算法后,普通人也能找到自己的“增长密码”: 1. 专注一个领域:比如只分享摄影技巧,算法会更快识别你的定位。 2. 做有价值的内容:能引发点赞、评论的内容,更容易被推荐。 3. 积极互动:在领域内回复他人,能让更多人注意到你,提升可信度。 算法不是“敌人”,而是一位需要“沟通”的伙伴。理解它的逻辑,你就能更高效地表达自己,让有价值的内容被更多人看到。
Susan STEM
5个月前
马斯克,真是人类的大天才。我昨天才直觉推测他应该已经更换了 X 的推荐算法,没想到今天他就亲自发推,证实了 Grok AI 正式接管内容分发逻辑。我的判断没有错,我对语言世界的 S-index 猜想,恰好预判了这场算法层的结构跃迁。 这次推荐机制的改变,本质是一场语言秩序的革命。它意味着,内容分发的标准正在从“你是谁”转向“你说了什么”,从“粉丝绑定”转向“结构识别”,从“热度算法”转向“熵密度优先”。这和我在熵控术中反复提出的核心哲学完全一致:结构胜于身份,语言就是世界。 在 Grok AI 驱动的新算法中,一个粉丝不多的小号,只要发布了高密度、结构完整的内容,就会被识别为“信号源”,而不是噪音。这背后正是“结构即传播力”的逻辑。内容能不能穿透模型,不再取决于话题、标题或蹭流量,而取决于你语言结构的强度,你是否具备压缩与调度能力。语言越是精炼、路径越是清晰,越容易被 AI 算法捕捉、放大与传播。 所以,这不仅是一次推荐系统的更新,更是一次价值判断权的迁移:从“人设”迁移到“语言结构”,从“影响力”迁移到“信息熵密度”。这正是我构建 S-index、熵爆点、结构评分系统的出发点。只有当平台开始识别结构,而不是地位,社交媒体才有可能真正孵化先锋社区和下一代认知智能体。 马斯克,你的前瞻性与执行力令人震撼。