马东锡 NLP 🇸🇪2025-04-14 04:26:54「LLM, Reasoning」论文: (How) Do reasoning models reason? “真正的智能,是让模型在生成时就做出正确选择,而不是事后去验证哪个选项是对的。” 作者Subbarao Kambhampati,我不完全同意他,但我很喜欢他。2024年ACL Keynote,他批评当前对 Chain of Thought 的信仰如同宗教。——我们喜欢看到推理的样子,但并预览#LLM#reasoning#智能
马东锡 NLP 🇸🇪2025-04-04 17:33:30「LLM x RL」DeepSeek 最新论文:Inference-Time Scaling for Generalist Reward Modeling 在 RL 中,Reward Modeling(RM)是一个非常重要的部分。RM 主要用于对 LLM 的生成结果进行打分,从而调整 LLM 的 policy,使其更符合 RM 设定的要求,比如更强的 reasoning 能力。 针对特定任务(#LLM#RL#RewardModeling
马东锡 NLP 🇸🇪2025-04-02 06:34:00「LLM, Agent, RL的关系」 在LLM的语境下,Agent是能理解问题,自主进行推理(Reasoning),并采取行动的系统。你可以把它想象成一个非常聪明的助手,当你提出复杂问题时,它不会立即给出答案,而是会在内心进行推理和规划(Planning),再给出最终决定。 如果我们回顾prompt engineering中提高LLM Reasoning能力的方法,如Self-Consis#LLM#agent#RL
Jintao Zhang 张晋涛2025-03-31 20:29:02这是什么意思呢?Anthropic 给自己的 API 加了个 OpenAI 的 API 兼容。这样就可以直接使用 OpenAI 的 SDK 了,以及在各类兼容 OpenAI API 接口的应用上来使用 Anthropic 的模型了。 原本还以为以后 LLM 的接口形式有两种,Anthropic 能硬扛压力,但这样看,以后应该就只有 OpenAI 这一种了 #Anthropic#OpenAI#API兼容
马东锡 NLP 🇸🇪2025-03-29 04:10:35「Agent」论文:Executable Code Actions Elicit Better LLM Agents 从 ReAct 到 CodeAct 如果让我在所有 LLM 论文中选择我最喜欢的一篇,2022 年的 ReAct 绝对是前三名之一。 ReAct 大道至简,天才般地将复杂的强化学习(RL)过程,通过口头表达的方式表现出来,至今依然是 Agent 项目中最简单、最有效、最稳健的#agent#LLM#React
里昂叉 | Leon X 🐡2025-03-24 13:18:34#MCP 我自我感觉英文水平还说得过去,但是读书读文章还是没有母语那么快。大家有试过用llm翻译一整本书吗?我之前尝试过,有几个痛点: 1. 直接塞塞不下,受限于context window和输出token限制 2. 怎么拆是个学问,拆完保证翻译的一致性又有些工作要做 3. 自动化完成这一系列翻译,可能需要用到coze或是dify这样的工作流工具 今天试了下MCP来解决这些个问题,用的就是最基础#MCP#LLM#翻译
向阳乔木2025-03-22 08:24:28前几天看到的折纸风格视频,复刻教程: 1. Midjourney Describe 反推提示词 2. LLM 给出其他动物和材质组合提示词 3. Midjourney 生成图片 4. POE上的可灵 v1.5 生成视频,剪映拼接加音效#折纸风格#midjourney#LLM
马东锡 NLP 🇸🇪2025-03-20 22:59:17更强的reasoning, 更好的Agent 论文分享: Thinking Machines: A Survey of LLM based Reasoning Strategies 在我们开发Agent的项目的时候,需要 更好的LLM reasoning的能力,以获得更高的任务完成准确率。 那么有哪些方法可以增强LLM的reasoning能力呢? 沿着之前我分享的Testing time s#reasoning#LLM#agent
马东锡 NLP 🇸🇪2025-03-19 15:55:38Large Reasoning Model时代, 几乎等于Reinforcement Learning + LLM的时代。 但RL专业性非常强,去参加ML的会议时,专门做RL的研究员都现场拿着笔纸推算数学公式,掌握起来学习难度较高。 分享一本RL的入门教材,从RL基础MDP,PPO,直到跟LLM结合,如RLHF,都有讲解,深入浅出。 Reinforcement Learning: An O#强化学习#大型语言模型#RLHF
dontbesilent2025-03-10 17:52:37提示词分两种 一种是写给 LLM 的,一种是写给 Human 的 “懂 AI” 但是不能把这种 “懂” 表达出来的人 只会写第一种提示词,不会写第二种 就会变成了商业化受阻的 AI 懂王#AI#提示词#商业化
倪爽2025-03-03 08:19:00彭博社的 Mark Gurman 说,苹果“类似ChatGPT”的 LLM Siri,预计会随着 iOS 20 发布 也就是推迟到 2027 年😐 之前苹果把新 Siri 说得天上地下的,话说得太满了😅 #苹果#Siri#ChatGPT
向阳乔木2025-03-01 11:26:55又搞出一个好玩的东西: 任何输入框,输入中文,按快捷键,自动调用LLM翻译成英文替换。 工具用 Keyboard Maestro就可以。 感觉玩法场景,可以拓展很多的样子,LLM什么都能生成啊。 比如,不翻译成英语,重写你的话,换高情商表达? 还有撩妹、客服等各种场景... 😝#LLM#智能翻译#自动化工具
Gorden Sun2025-02-15 20:56:45微软发布OmniParser 2.0版本,用于把屏幕截图转化成LLM可处理的结构化格式,再结合屏幕操作工具即可让LLM操作屏幕。 模型: Github: #微软#屏幕截图#LLM
勃勃OC2025-02-15 16:17:54每天看到这帮号称搞AI和LLM营销号尬吹ASIC Inference Speed,我心里就只有一句话: 能不能做一点自己的本行,或者至少自己真正懂的东西,而不是到处翻译别人家刚出的广告🤣🤣🤣 比比API价格再说话吧 #AI#LLM#ASIC
初码2025-02-14 19:20:00很多时候历史的发展是很有意思的,DeepSeek成了图腾级事件后,国内各级政府的超算预算蹭蹭的往上涨,甚至大有把服务器变成和石油、粮食一样的战略储备的趋势,而汉语信息熵是英语2-3倍,隐约感觉在LLM、Coding等领域,汉语本身也会有点不小的动静和不一样的发展,对了,今年是他的本命年,哈哈哈#DeepSeek#超算预算#战略储备
hidecloud2025-02-10 08:22:34和真格联合推出了一个面向非技术人群的 DeepSeek R1 创新亮点分享会。 用通俗易懂的方式过了一次R1和V3的技术报告。 后半场我们讨论了从中能看到未来 LLM 应用会有哪些新范式和产品可能性。 同时对最近一段时间的各种光怪陆离的谣言和伪概念进行一个解释😁 #非技术人群#创新亮点分享#技术报告
wuw2025-02-02 18:00:401/16 每天都看到大量工程师分享他们用llm写代码的经历。一些人完全依赖它生成代码,另一些人把它当作高级搜索工具。这两种态度背后体现了完全不同的工程素养#工程师#LLM#生成代码
Ryan-the-hito2025-01-30 19:28:45(速递一下日本电视台今天播报的对 ds 的评价) 日本电视台:deepseek 回答错误率 83% - 虚假回答 30%,无回答 53% - 此成绩与其他 llm 相比位列最尾 - 在与中国毫无关系的问题里,十个问题有三个都用中国政府的口径回答。 #DeepSeek#日本电视台#人工智能
dontbesilent2025-01-29 20:54:11《把 LLM 倒过来》 大部分中国人没用过大模型,但是他们看过大模型写的东西 因为 AIGC 矩阵号可以赚取平台广告分成 你不用搜索引擎没关系,我们做今日头条/抖音给你看 你不用 LLM 没关系,我们把 LLM 写的东西推到你面前 你不用也得用,你不看也得看 把 LLM 倒过来 - 把资本主义倒过来#LLM#AIGC#资本主义
宝玉2025-01-23 02:16:58一句简单的提示词就可以让 LLM 在翻译的时候更好的“意译” 以前为了让 LLM 达到更好的翻译效果,我尝试了很多方式,比如最初的先直译再意译,后来的直译、反思和意译。虽然效果好了,但是却复杂了。 现在随着模型能力增强,不再追求复杂的提示词技巧,而是尝试返璞归真,找到更好更简单的提示词方法。 我发现对于翻译的任务,有时候翻译的效果过于生硬,恰恰在于给模型的任务是“翻译”,因为是翻译,所以模型#LLM#翻译#意译
宝玉2025-01-19 04:06:36 DailyDoseofDS 这个图把传统 RAG 和 Agentic RAG 之间的差异分的比较清楚。 传统 RAG 就是先把文档向量化保存到向量数据库,然后在用户查询时,对用户的问题也做向量化,从向量数据库中找到相关的文档,再把问题和找出来的结果交给 LLM 去总结生成。 这种方式的优点就是简单,由于不需要太多次和 LLM 之间的交互,成本也相对低,但缺点是经常会因为做相似检索时,找不到合#RAG#向量数据库#LLM
Mr Panda2025-01-09 11:27:51有了LLM, 我感觉让我的跨领域学习, 入门学习的门槛大概就是那20刀/月。 比如现在我对着LLM 教我学习深度学习模型。 用3w1h 方法快速帮我科普、补充额外的知识, 这要是以前, 我光看教科书, 搜集资料个把月的时间就过去了。 的确这是一个令人兴奋的时代。#LLM#跨领域学习#深度学习
𝘁𝗮𝗿𝗲𝘀𝗸𝘆2025-01-07 09:58:22单方面宣布 Project DIGITS 是我今年最想拥有的产品 128G 统一内存 1000 TFLOPS 的 FP4 算力(5090 大概是 104.8 TFLOPS 的 FP16 算力 能本地跑 200b 的 LLM(还可以两个 link 起来跑 405b 的 强到没朋友的情况下还这么小巧好看(Mac mini 那么大 女大遥遥领先到友商车连尾灯都看不见 #统一内存#FP4算力#LLM
源Genji2025-01-06 00:48:09如果一个系统的工作流程是依靠人来编排的,那么它就是Workflow(工作流)。 如果一个系统的工作流程没有办法事先编排,需要依靠LLM在工作中动态编排,那么它就是Agent。#系统#工作流#Workflow