#AI研究

3天前

最近一心研究AI，发的推少了。我一直都在。出金干货看以前的文章，都有

#AI研究 #推特活动减少 #干货文章

沉浸式翻译

4天前

你有没有发现：我们每天都在和 LLM 对话，但其实完全不理解它在“想”什么？大多数人以为 AI 是一条路走到黑的“概率复读机”，但真正卡住模型推理能力的，是它缺乏像人类一样“悔棋”和“推演”的过程。这个交互式站点，本质上是 LLM 思考过程的“CT 扫描仪”。在 AI 研究圈子里，它被当成是 2026 年最直观的 MCTS（蒙特卡洛树搜索）原理解释器。你学不会 AI 原理也许是因为而是那些数学公式和论文黑盒太过于枯燥。你现在遇到的核心问题，其实是缺乏一种“视觉直觉”去理解 AI 是如何在数百万种可能中，精准选中那条逻辑最严密的推理路径。 Metafunctor 这篇刚发布的文章牛在它把 MCTS 彻底透明化了： 1️⃣ 实时参数调节：拖动滑块就能看“探索”与“利用”的博弈过程。 2️⃣ 推理动画播放：像看棋谱一样看 AI 如何在节点间反复横跳、回溯。 3️⃣ 点击式拆解：点击任何一个树节点，直接看该步的 Q 值和访问频率。这不是在读文章，这是在实时调试一个“思维模型”。玩过这个可视化项目后，你会明显感觉到：原本抽象的“大模型推理”变成了具体的“路径搜索”；那种对黑盒的恐惧，被一种“原来如此”的掌控感所取代。（你对 AI Prompt 的优化思路，甚至都会因此发生质变。）如果你正在试图攻克 AI 架构和推理逻辑，这个资源，基本可以当成你入坑 MCTS 的终点站。 🔗 深度解析与互动实验：

#AI #LLM #人工智能 #模型推理 #蒙特卡洛树搜索 #MCTS #AI研究 #思考过程 #CT扫描 #交互式站点

4个月前

把 Ilya 的播客整理成文章了，他的许多回答都符合直觉，但又细思极恐（两张截图结合起来看，总觉得他发现了些什么）。 Ilya Sutskever：AI 研究、泛化与未来之路

#AI浪潮：重塑就业，风险暗涌？· 140 条信息

#Ilya Sutskever #AI研究 #播客 #泛化 #未来

4个月前

来自 X 账号 TestingCatalog 的爆料：Google 在 Gemini 企业版（Gemini Enterprise）里新增多智能体「自动做研究」模式 Google 正在 Gemini for Enterprise 里打造一个多智能体系统。你给它一个主题，再配上一套评估标准，它就能自己生成一大堆点子，然后拉起一整支智能体团队，像打锦标赛一样一轮轮评审这些点子。这个系统一次可以连续干活大约 40 分钟。对一个面向普通企业用户的产品来说，这已经是非常长的一次连续推理过程了。在这 40 分钟结束时，用户会收到一大串点子清单，按你一开始设定的标准从优到劣排好名。整个规模也不小：系统一次能产出大约 100 个点子。对每一个点子，你都能拿到： - 一个概览 - 一个更详细的说明 - 一份点评总结 - 一份完整长评 - 以及一份专门的「锦标赛表现报告」（tournament performance report）这个「表现报告」还是一个单独的输出，可以单独打开慢慢看。所有生成出来的点子都是可选择的，你可以点进任意一个，继续深入展开。在当前的内测版本里，Google 看起来内置了三个智能体，其中有两个就是搭在这个多智能体「锦标赛」系统之上的。第一个叫 “Idea Generation”（创意生成）在这个模式里，你只要给一个主题，这个智能体就会启动整套多智能体工作流，用「锦标赛式评估」（tournament-style evaluation）来生成和排序各种相关点子。（所谓锦标赛式，就是不断让方案互相“对决”，胜出的留下，弱的被淘汰）第二个叫 “Co-scientist”（联合科学家）这个则更偏向科研和研究场景。你可以指定一个研究主题，再提供一些额外数据，然后一整个智能体团队会先生成研究方向和方案，再用同样的锦标赛机制去评估这些想法，只是这次会更强调科研和科学探索的需求。这里最有意思的一点，是它背后明显投入了非常夸张的算力。允许智能体在一个任务上连续工作大约 40 分钟，这在现在的大多数智能体工具里都算是「豪华配置」了。在整个 40 分钟里，系统会不断迭代这个问题，不停生成、筛选、打分、重组。目前，这一切都还只出现在 Gemini for Enterprise 里，属于内部开发阶段，对普通用户是隐藏的，还没有以正式功能形式对外开放。跟现有的智能体实现相比，这一套看起来是个明显的前进一大步。就算是那些已经带浏览器模式的高级智能体，通常也会受限于上下文窗口和时间预算（time budget）。而这次，Google 的做法，是直接把一大块算力「摆在台面上」给企业客户用，做成一个正儿八经的前端产品界面。这也和所谓的「Level 3 AI」的概念非常契合：这一层级的 AI 智能体，被描述为可以在同一个问题上持续工作一段较长时间。（这里的 Level 3 并不是统一标准，更像是行业里对“能长时间连续工作的智能体”的一种非正式分级说法）从这个角度看，让智能体在单个任务上跑满 40 分钟，是一个非常典型、甚至偏激进的例子。在实际使用中，这套系统输出的核心是「被充分筛选和精炼过的点子集合」。但它们远不只是随手抛出来的一堆建议，而是可以视为一组结构化的研究方向：在你给定的数据和问题背景下，这些方向有可能真正指向高价值的洞见。所以，Google 正在推进这种极其强力的智能体能力，专门服务于组织、公司和研究团队，这件事本身非常耐人寻味。等这项功能真正对外发布时，很可能会是一次不小的跃迁，尤其是如果这些智能体最终由 Gemini 3 Pro 来驱动的话。现在，Gemini 3 Pro 还没有进入 Gemini Enterprise，所以目前还不清楚这些实验性智能体背后具体用的是哪一个模型。这里依然有很多东西需要测试和验证。当你把一个提示词（prompt）提交给这套系统时，它首先会给出一份「计划做什么」的概要：会在哪些维度上评估、打算从哪些方向出发生成和筛选点子。只有在你确认这份概要之后，系统才会真正启动那次「大任务」。这相当于在烧一大笔算力之前，先和你对齐「我到底打算怎么理解你的问题」。除了多智能体锦标赛工作流之外，Gemini Enterprise 里还有另一个智能体，叫 “chat with your docs”（和文档聊天），它配了一套独立的 UI。这个智能体允许用户上传大小最高 30MB 的 PDF，然后面向这些文档进行专门对话。这个功能同样属于 Gemini Enterprise 的一部分，目前还没有对外发布，而且在生产环境中暂时不可用。它的设计思路是：最多 30MB 的 PDF 内容可以被分析并写入模型的上下文里，这样用户就能从现有文档中抽取更有价值的信息，而不是只靠人自己翻页看。在 Gemini Enterprise 里，还有不少其他功能正在开发中，但真正最抢眼的，还是这两条线： 1. 多智能体锦标赛式工作流 2. 面向文档的专用智能体特别是那个基于锦标赛的多智能体架构，看起来就是一种突破性的产品路线——其他大语言模型（LLM）服务商，目前似乎还没有在这个层级上，给用户提供类似的东西。多智能体锦标赛在面向终端用户的工具里依然非常少见。也许可以拿 Grok Heavy 来做某种对比，但很可能也不能算是和 Google 这套完全同一个方向的东西。等这些智能体成熟之后，如果能看到一套正式的评估结果和基准测试，那会非常有价值。光从现在的描述来看，那个 Co-scientist 智能体已经足够让很多大型组织和研究团队心动——尤其是那些正在探索新科学方向的团队。至于这些智能体具体什么时候会正式上线，或者会不会开放给非企业用户，目前还都是未知数。来源：

Google Gemini 2.5发布引发AI模型性价比热议· 475 条信息

OpenAI新德里发布会：ChatGPT语音翻译功能引发热议· 869 条信息

#Gemini Enterprise #多智能体 #锦标赛式评估 #AI研究 #算力

4个月前

很佩服在ai 这么浮躁的环境下，还有一些人在潜心做一些深入的研究工作。

#AI研究 #潜心研究 #浮躁环境 #深入工作 #积极

5个月前

🔥AI时代，领先，从拥有你的私人AI超算开始！懒猫AI算力舱X3基础功能介绍外型巧妙的融合了星战科幻光辉与超跑的飞驰曲线，强大算力澎湃运行，一台穿越星河的AI算力中心战力分析： 1.品类：家庭私人AI超算 2.用途：AI研究、模型推理、个人知识库 3.参数：英伟达芯片，275T澎湃真算力，64GB超大显存，70B大模型，无会员畅玩CUDA AI应用 4.购买理由：AI性能怪兽、超大显存、赚钱利器，领先从拥有你的私人AI超算开始！ 5.典型应用：个人知识库、视频搜索、联网搜索、文生图、文生视频、网页播客、音视频文字提取等.... 🚀 微信搜索 “懒猫微服” 小程序购买

懒猫家族新成员亮相，AI算力舱引发热议！· 143 条信息

#AI超算 #私人AI #懒猫AI算力舱X3 #英伟达芯片 #AI研究

6个月前

最近微服和算力舱成套买的老板，晚上应该都收到货了吧？我分享一个算力舱初始化的视频给老板们： 1. 商店下载 AI Pod软件，打开 2. 点击右上角按钮，输入懒猫微服用户名和密码 3. 点击查找，懒猫微服会局域网找懒猫算力舱懒猫微服找到算力舱后，点击绑定按钮即可，国庆快来AI研究吧，哈哈哈哈

懒猫家族新成员亮相，AI算力舱引发热议！· 143 条信息

#懒猫微服 #算力舱 #AI研究 #初始化 #国庆

7个月前

❌ 更多钱可以让我更快乐 ❌ 去旅游可以让我更快乐这两个都被证伪了，我发现只有能够提升效率的事情才会让我感到快乐我决定投入更多时间去研究 AI 和 AI 工具去哪儿旅游都差不太多，尤其是国内

#效率提升 #AI研究 #AI工具 #快乐 #国内旅游

7个月前

Hugging Face 真是一个巨大的宝库，很多正在学习 AI 同学并没能充份意识到这一点，在我看来 Hugging Face 对于 AI 研究员等同于 github 对于程序员。今年我跟我老婆讲了很多遍，我劝她没事多刷 huggingface，涨见识。

#Hugging Face #AI学习 #AI研究 #知识获取 #积极

7个月前

抖音评论区有人问：我也经历过和你相似的情况，但是我没有总结出这个规律，你是如何总结的于是有了选题 1：《总结一下我是如何总结的》但是其实，我也不知道我是如何总结的，我就开始和 AI 一起研究现在研究得差不多了，于是就有了选题 2：《我是如何总结出我是如何总结的》之前有人问我是如何做到高频输出的，这就是典型案例：研究了一个之前没研究的东西，就可以输出了于是又有了选题 3：《如何找到一个新的可以研究的事情》和选题 4：《如何研究出来一个从来没有研究过的事情》当然，有时候也会失败，比如今天折腾了一下元器的工作流，发现做完了工作流竟然不能对外分享，被腾讯坑死，所以今天没啥可分享的

#抖音评论 #AI研究 #高频输出 #选题 #元器工作流

7个月前

后知后觉，今天才知道武汉大学的事情。其实并不复杂啊：如果能用裤裆湿疹挠痒（更正常）来解释一个动作，何必非得解释为一个不正常的少见的动作呢？（思维模型之汉隆剃刀：如果可以用愚蠢来解释，就没必要解释为恶意）现在这个社会的性别对立，已经到影响民族发展、社会功能正常运行的程度呢（听说 2024 年结婚数又暴跌了 100 多万对，新生儿出生率正式全球最低了）另外，敢于性别对立的人，只怕是只敢性别对立吗？面对其他的结构性不公，怕是另一套标准吧？这操蛋的世界。💩 不如研究 ai，自得其乐。

#武汉大学 #性别对立 #生育率下降 #社会不公 #AI研究

9个月前

Talk is cheap, show me the code! Jason Wei：一位曾在 OpenAI 工作的老朋友告诉过我一句特别经典的话，让我一直记忆犹新： > 每次有人跟他说某人是个“顶尖的AI研究员”时，他都直接花5分钟去看这个人的代码提交（PR）和 Wandb 的实验记录。因为人们总能玩各种办公室政治或者花样美化形象，但到头来，真正的代码和实验数据是骗不了人的。听完这话后，我特意去看了一些真正厉害、非常投入的 AI 研究者，发现他们几乎每天都在运行新的实验，极少有空闲的时候。

AI编程工具激战：Claude Code、Gemini Cli崛起· 1256 条信息

#AI研究 #代码实践 #实验数据 #务实 #Jason Wei

9个月前

2018年同学跟我说nips有个论文叫attention is all you need，当时听到这个名字，第一反应是现在的顶会越来越标题党了（

#NIPS会议 #AI研究 #论文标题

9个月前

【Anthropic开源Circuit Tracer：大语言模型可解释性研究新工具】 Anthropic今日正式开源Circuit Tracer工具，为LLM内部工作机制研究提供新方案。主要功能包括： - 神经元级特征电路可视化 - 概念激活路径追踪 - 支持因果分析方法该工具旨在帮助研究人员深入理解大语言模型的决策过程和工作原理。 GitHub：技术白皮书： #AI研究 #可解释AI #机器学习

#AI研究 #可解释AI

Luo说不啰嗦

10个月前

看到新闻说 Llama 团队近八成顶尖研究成员已出走，Meta 不会就是传说中的 AI 黄埔军校吧！🤣

#llama #Meta #AI黄埔军校 #团队出走 #AI研究

1年前

在推特发NSFW的AI研究，会被封号吗？

#NSFW #AI研究 #封号 #推特 #社交媒体规则

1年前

OpenAI 宣布计划将其计算基础设施从微软转移至由软银支持的 Stargate 项目。此次转型涉及重大财务投入，OpenAI 目标在 2025 年将收入提升至 125 亿美元，达到当前的三倍。 Stargate 项目预计到 2030 年将承担 OpenAI 三分之二的计算需求，这一战略举措旨在多元化基础设施合作伙伴关系，并扩大其 AI 研究能力。

#OpenAI #微软 #软银 #Stargate项目 #计算基础设施 #财务投入 #收入增长 #AI研究 #基础设施多元化

1年前

半导体深喉媒体SemiAnalysis发文称，DeepSeek 获得了1万个H800 和约1万个 H100。2021年美国出口管制前，公司已弄到1万片A100。他们还订购了3万个 H20。这些 GPU由幻方量化和 DeepSeek 共享，用于交易模型和AI研究。 DeepSeek 的服务器资本支出总额接近 13 亿美元，运营成本高达 7.15 亿美元。

#半导体 #DeepSeek #GPU #AI研究 #服务器资本