时政
财经
科技
虚拟货币
其他
登录
马东锡 NLP
关注
统计数据
18
文章
0
粉丝
0
获赞
22
阅读
热门文章
1
TechFlow 深潮 发布的文章:近期教育领域的变化引发了广泛讨论,我认为教育改革应该更加注重学生的个性化发展和创新能...
145
32
马东锡 NLP
2天前
最近感悟,一定要吝啬自己的激素水平。 最好不要真的付出感情去对待能挑起你喜怒哀乐的内容,尤其是在虚拟世界里。 特别在推上,碰上骂人的认知水平低下的蠢货,但凡你花费一秒钟浪费肾上腺素去生气,你就输了。蠢货则毫发无损,满足地继续骂别人。 对待这种烂人的最佳方式,就是彻底的对他无视,让他在自己的幻想里烂到底。 要把所有的激素水平,放在成为领域专家或写好段子这件事上。
#情绪控制
#虚拟世界
#认知水平
#无视烂人
#专注自我提升
分享
评论 0
0
马东锡 NLP
3天前
关于卖课,我认为有两种课,行业专家的课和来路不明的课。 行业专家,例如顶级研究员/开发者/设计师,他们凝结自己的经验智慧去设计内容。这样的课,我一定愿意去付费学习。 路不明的课,比如AI混子神棍零售prompt engineering,生活类youtuber量贩vibe coding,社会闲散人员批发销售灰产搞钱手册。
#卖课
#行业专家
#AI混子
#知识付费
#经验
分享
评论 0
0
马东锡 NLP
1周前
我为什么讨厌花时间看AI生成的东西,本质上,我觉得不被尊重。 以前,你花一年写一本小说,我买来放在书架,用心读。 现在,你两秒钟生成垃圾文字,让我花几个小时读? 以前,你花两天写PR, 我认真做code review。 现在,你两秒钟vibe了几十个文件的PR, 让我花半小时review? 以前,你花一个月,成文一篇paper,我仔细做peer review。 现在,你让ai生成论文,让我花一小时来评判方法和实验结果? 以前,你精心挑选衣服,一遍遍跳错,一遍遍重拍,我给你点赞刷火箭。 现在,你一秒出图,鼓噪我的多巴胺? 你不尊重我,一两秒钟在这糊弄我,却让我用掉我宝贵生命中更多的时间来读你的垃圾? 你闹呢?
OpenAI GPT-5发布引发用户不满,阿尔特曼回应质疑· 46 条信息
#AI生成内容
#不尊重
#垃圾内容
#时间浪费
#情感:负面
分享
评论 0
0
马东锡 NLP
1周前
AI时代的可怜韭菜图鉴: 1. 付费阅读 AI 生成的长篇小说 2.付费购买来路不明的 vibe coding 课 3.付费打赏短视频AI擦边主播 4.购买web3+AI Agent的crypto 5.迷信AI算命,沉迷AI陪伴,付费AI心理咨询 6. 购买各种AI+自媒体搬运搞钱系列课程
AI技术引发伦理争议,专家呼吁加强监管· 49 条信息
#AI
#韭菜
#付费
#Web3
#割韭菜
分享
评论 0
0
马东锡 NLP
1周前
Vibe时代,一部分人会成为更好的 coder,writer,reader。 但更多的人会成为,vibe 妄人。
#Vibe时代
#coder
#writer
#reader
#vibe 妄人
分享
评论 0
0
马东锡 NLP
1周前
大量使用 Claude Code 后,重新读了 SWE-Agent,开始理解使用中的一些问题。 cd/ls/cat/grep/find, Vim-style next/prev 本质上是Human-oriented CLI。 所谓 Human-oriented, 意为着这些CLI设计初衷迎合人类的眼球转动速度,使用CLI过程中的short term 记忆。 Human-oriented CLI与LLM的特性矛盾,导致CLI Agent使用这些CLI的时候,给Agent的单次action的信号太低,导致CLI Agent 在实质上倾向于消耗大量token,并且更容易犯错。 所以,虽然相比于GUI,CLI更加适合 Agent, 但CLI终究是为human设计的,并不是ACI (Agent Computer Interface) 的最终形态。 如果你做的仅仅是another CLI Agent,几乎没有价值。 附上论文中关于 ACI 设计的原文,大家也思考一下,到底什么样的交互,是真正的 Agent Computer interface。
AI编程工具激战:Claude Code、Gemini Cli崛起· 697 条信息
#Claude Code
#SWE-agent
#Human-oriented CLI
#LLM
#ACI
分享
评论 0
0
马东锡 NLP
1周前
DeepSeek V3.1 出现了 Glitch Tokens 的问题,随机高频冒出 " extreme" / "极" / "極"。 在 post-training 时代之前,Glitch Tokens 通常指的是某些在自然语料里极少/异常的 token,会扰乱本应正常的生成行为。 在 post-training 时代,大量自制 DSL / 控制标记作为 added tokens 被引入,用来更精细地驱动模型行为,例如 <Think>、<Image>、<Vision> 。这些 DSL token的初衷是提升自然语言指令的可控性和准确性。 DS 的 Glitch Tokens 问题,看着非常像把 " extreme" / "极" / "極" 这类本是自然语言token,在某些上下文里学成了 DSL token,从而被异常地高概率选中。 一些思考: 自制 DSL 的本意是增强自然语言的准确性与可控性。但当 DSL 标记越加越多,如果部分 Glitch Tokens 与这些控制语义(无论显式还是隐式)发生了错误耦合,就可能在推理时反过来干扰自然语言的正常分布,值得警惕。
深度学习模型升级引发AI能力大跃进,行业迎新变革· 58 条信息
#DeepSeek V3.1
#Glitch Tokens
#DSL token
#模型干扰
#自然语言生成
分享
评论 0
0
马东锡 NLP
2周前
昨天跟推友争论,正常人怎么可能会去读AI生成的长篇小说。 突然想到AI时代的品味问题。 记得去年停更推特期间,跟bro路演找VC。 有的VC在那吹嘘自己通过卖ChatGPT的课赚了45M,然后如何通过倒卖英伟达GPU滚成4.5亿,唾沫星子衬托了一副AI投机客的嘴脸。 有的VC炫耀自己投了AI客服,在那里叭叭教我计算替代了多少人工客服,business model如何清楚。全然不顾真实场景中,顾客面对AI客服的无助。 我心想,太特么没有品味了,很想顺着Zoom会议爬过去打他们一顿。 静下心来,才意识到自视有品位的自己才是真正的小丑。
#AI投机
#VC
#品味缺失
#AI客服无助
#自我反思
分享
评论 0
0
马东锡 NLP
2周前
每天vibe coding,推上的几个英文AI论文大号博主,全部都在vibe reading。看这些垃圾,脑子是一天比一天雾。 今天听了罗永浩的播客,如沐春风。 AI再牛逼,在活人面前也是狗屎。
#AI
#罗永浩
#播客
#批判
#积极
分享
评论 0
0
马东锡 NLP
2周前
前段时间,跟一位大佬建立了连接。 大佬的第一个问题,便让我思考了好久。 “你是在创业还是打工?” 我觉得这个问题太好了。管你什么PHD, VP,首席,高级标签,本质就是打工。 回想人生到目前为止,无论是出国工作还是读PhD,其实一直被打工思维控制,主动放弃了人生的另外一种可能性。 改变思维模式太难了,不知我现在还有没有胆量和机会。 推友们,你们是在创业还是打工?
#AI掘金:知识付费新机,流量为王时代· 139 条信息
#创业
#打工
#思维模式
#人生选择
#迷茫
分享
评论 0
0
马东锡 NLP
2周前
Emergent Misalignment 论文中的一些例子,大家可以看看,是不是很可怕
#Emergent Misalignment
#论文
#AI风险
#技术伦理
#负面
分享
评论 0
0
马东锡 NLP
3周前
不知道你们怎么样,即是作为AI从业者,我本能地排斥输入一切 AI 生成的东西。 Review 代码时,一旦觉得是 AI 写的,我直接写LGTM。 看文章时,只要察觉是 AI 生成的,立刻关掉。 如果网站的UI一看就是AI生成,立刻关掉。 如果播客是AI生成,立刻关掉。 如果短视频是AI生成的,立刻划掉,换成二手车贩子或修理驴蹄子视频。 我觉得让AI生成的内容来愚弄我的多巴胺内啡肽,是对自己肉体和精神的不负责。 AI生成的内容当然有价值,但仅限于人类最终输入和输出的中间物,不应当也不可能长期作为最终形态流通。
#AI排斥
#AI生成内容
#内容质量
#人类价值
#技术反思
分享
评论 0
0
马东锡 NLP
4周前
看完 GPT-5 的发布会,结合最近读的文章,我有一个很强的感受: Benchmark 的比拼,似乎已经失去了意义,而 Model Steering 将成为下一阶段的核心竞争力。 在几个 Demo 中,OpenAI 多次强调他们使用了 concise prompt。但仔细看这些 prompt,其实充满了 beautiful,amazing 等主观性极强的词汇,这显然不是严格意义上的concise 提示。 问题的关键在于: 在真实使用中,我们与模型的摩擦点往往不在于“它能不能解决这个问题”,而在于“它能不能按照我想要的方式解决”。 然而,我心中对 beautiful,amazing 的理解,和你的一定不同;甚至同一个人在不同场景下,对这些词的定义也会变化。 这意味着,未来强大的模型必须能够针对不同用户,甚至不同 Agent 的人格,将同一个词映射为不同的含义,从而生成真正符合个人偏好的结果。 我相信,今年会有越来越多围绕 Model Steering 的探索。而我自己,也会在这一方向上投入更多精力。
OpenAI新德里发布会:ChatGPT语音翻译功能引发热议· 404 条信息
#GPT-5
#Model Steering
#concise prompt
#用户偏好
#人工智能
分享
评论 0
0
马东锡 NLP
1个月前
仔细读了 Agent KB,太好了!我觉得完全可以创造一个新词:experience engineering(经验工程)。 这里的 experience 就是指 Agent 在解决不同问题时积累的经验。 相比于 context engineering(上下文工程),experience engineering 的抽象层次更高。因为 experience 不仅包含了 context,还涵盖了问题模式、问题解决的 workflow、元数据(meta data)以及关系图谱(graph)等信息。 Experience 可以像知识库一样被存储起来,不同的 Agent 在面对不同问题时,都可以通过 Reason -> Retrieve -> Refine 的过程学习已有的经验,极大地提高 Agent 解决问题的能力。 优秀的工作,来自 OPPO agent team。Salute!
#Agent KB
#经验工程
#问题解决
#OPPO agent team
分享
评论 0
0
马东锡 NLP
1个月前
Gemini 2.5 Pro 国际数学奥林匹克 IMO 2025 的 report 我愿认真读一百遍的 system prompt Report 公布了核心方法 self-verification pipeline, 并在report中附上了详细的prompt。 其中 self-verification中 的 verifier 扮演重要角色:生成 Bug Report,这一角色把 pipeline 中的 solver 和 verifier 区分开来,同时 verifier 承担着每次迭代的中转。 Pipleline中的每个step都详细公布了prompt,这种级别的system prompt的格式与条理,值得读一百遍。
Google Gemini 2.5发布引发AI模型性价比热议· 154 条信息
OpenAI新德里发布会:ChatGPT语音翻译功能引发热议· 404 条信息
#Gemini 2.5 Pro
#IMO 2025
#self-verification pipeline
#system prompt
#Bug Report
分享
评论 0
0
马东锡 NLP
1个月前
OpenAI 和 Gemini 相隔两天分别宣布他们的模型达到了国际数学奥林匹克 IMO 金牌水平。 为什么差两天?因为 IMO Board 要求所有 AI lab,必须在参赛学生成绩宣布后,以及在独立专家验证其结果后,才能宣布。 显然,OpenAI 没有按照这个规定完成流程,这家公司的文化,明显出了问题。
#OpenAI
#Gemini
#IMO
#数学奥林匹克
#AI伦理
分享
评论 0
0
马东锡 NLP
1个月前
Lovable 成功融资2亿美元,跻身独角兽。 Lovable 来自瑞典,创始人Anton是我校友,他还曾经去浙大交换过! Anton 从2023年底开始做 Lovable,那时候推友们在干啥呢!
#lovable
#融资
#独角兽
#瑞典
#创始人Anton
分享
评论 0
0
马东锡 NLP
4个月前
「LLM, Reasoning」论文 L1: Controlling How Long A Reasoning Model Thinks With Reinforcement Learning 智慧不在于一味求索,而在于懂得根据问题的复杂性,伸缩思考的深度。 这篇论文非常出色,在test-time scaling的潮流中,直面了它的主要问题:即模型在推理过程中过于缓慢、冗长。 Test-time scaling的问题源于其自身特点——刻意增加LLM的推理长度,可以提升模型解决复杂问题的能力。 由于强化学习(RL)对scaling的鼓励,所谓的“aha moment”让模型倾向于过度地展示其思维过程:“一方面,另一方面,aha,wait,what if...”。模型似乎时刻用超高的latency考验用户的耐心。 这篇论文提出了LCPO(Length Controlled Policy Optimization,长度可控策略优化)的方法。 作者同样使用RL对模型进行优化,其核心是设计一个平衡准确性和长度遵循性的奖励函数,旨在训练语言模型在保持推理准确性的同时,尽量满足提示中对长度的要求。 论文最大的亮点: 模型能够根据提示中给出的要求,自适应地控制推理长度,从而有效节约计算资源。 两点思考: Test-time scaling的方法特别适用于复杂的数学问题。但普通用户在使用这些模型时,有多少场景是在解决复杂的数学问题?大型模型公司完全可以借鉴这一方法,根据用户的query自动决定模型推理的合适长度。 强化学习带有一种强烈的rule-based(基于规则)的特点。这种特性会放大贴合规则的效果,但也容易忽略规则之外的因素。规则即是限制,因此阅读RL相关的文章时,我总有种“LLM在顾此失彼”的感觉。 OpenAI的Shunyu说:“RL finally works.” 我不完全同意。我认为更准确地说,RL finally works with specific rules.
#LLM推理长度控制
#强化学习优化
#LCPO
#Test-time scaling问题
#规则限制
分享
评论 0
0
1
个人主页
通知
我的投稿
我的关注
我的拉黑
我的评论
我的点赞