时政
财经
科技
虚拟货币
其他
登录
howie.serious
关注
统计数据
436
文章
0
粉丝
0
获赞
2887
阅读
热门文章
1
TechFlow 深潮 发布的文章:近期教育领域的变化引发了广泛讨论,我认为教育改革应该更加注重学生的个性化发展和创新能...
145
32
howie.serious
9小时前
gemini 3.0 pro 的 IQ 分数出来了:历史上所有 LLM 的最高分! (IQ 测试分为两档:门萨版测试和线下/离线版测试。离线版的题目是全新设计且保密的,所有 LLM 都没看过,所以不存在背答案、或模型训练时见过等问题。通常情况下,离线版的 IQ 也会低 10~20 分。) 离线版测试,gemini 3.0 pro 的 IQ 是历史最高分,130 分; 门萨测试,gemini 3.0 pro 的 IQ 是142,比gpt-5 pro 低 1分。 平均一下,gemini 3.0 pro 的 IQ 得分也显著超过 gpt-5 pro。 (IQ分数不是衡量智能的标准,不论是人类智能还是 llm 智能,智能的结构是复杂且多维度的,但 IQ 可以作为其中一个维度。)
#Gemini 3.0 Pro
#IQ测试
#LLM
#历史最高分
#GPT-5 Pro
分享
评论 0
0
howie.serious
23小时前
karpathy 的“LLM 议会”,把全人工流程的“llm 专家团”/“llm 三人行”提升了一个高度! - 先是 n 个llm 独自答题; - 然后分别peer review,每个人给所有人打分; - 最后由“议会主席”(gemini 3.0 pro)总结发言。 在我以前的实践中,第二第三步是自己人脑执行的。和kaparthy 这种全自动化的方式还是有差异。 例如,我自己的判断是gemini 3.0 pro 的回答更好(依据是作为思想实验的启发性)。而ai 的判断是 gpt-5.1 更好(更多聚焦于问题本身)。 karpathy vide coding 出来的这个 app 很好,只要配置一个 openrouter key 就可以立刻跑起来。 期待的更新:分享功能。 不足:太费钱了。这几个llm 会员我都有啊,完全可以有一个chrome extension,用会员的额度来做这件事,而不要单独用 api 烧钱🤣 (独立开发者们?)
#LLM议会
#Karpathy
#Gemini 3.0 Pro
#GPT-5.1
#AI评估
分享
评论 0
0
howie.serious
1天前
如何让 gemini 的 thinking steps 用中文输出?【集思广益】 问题描述: gpt 的 reasoning model,CoT 是可以中文输出的。不需要在 custom instruction 里面单独指定。 但是,gemini 模型的 CoT 却只有英文输出,不论是把 app 设置为中文,还是在 custom instruction 里面指定,都是无效的。 我的理解: CoT 的语言,是模型层面的,无法通过用户自定义指令来修改。必须得等 google 自己在 gemini 的系统指令中调整,用户没有办法。 推友们有人解决 cot 修改语言的问题了吗?
#Gemini
#中文输出
#CoT
#模型语言
#用户自定义指令
分享
评论 0
0
howie.serious
1天前
brilliant app 最 brilliant 的 idea 就是给 youtube 上几乎所有 brilliant 的知识视频投了广告。这简直太 brilliant! (一个家庭 routine:吃饭时看知识视频;一般早上看英文的长知识视频,晚上看中文的。不知道这些年遇到几千次 brilliant 广告了🤣)
#YouTube
#知识视频
#广告
#家庭
#积极
分享
评论 0
0
howie.serious
1天前
对于 ai 的很多使用场景,你需要的不是另一个 ai 工具。 你真正需要的,只是知识管理。 当你有一个顺滑的信息加工和知识管理流程,你自己就可以把 chatgpt 等 ai 会员用在这些场景上。 不需要额外花钱,反而减少 ai 会员的额度浪费。
#AI工具
#知识管理
#ChatGPT
#信息加工
#效率提升
分享
评论 0
0
howie.serious
1天前
现在长 podcast 内容很流行,分享一下我目前的处理方法。 你只需要这三个要素:podcast 文稿,顶级模型,好的 prompt。 1 文稿: 几乎所有值得听的 podcast,都有文稿。或者是公众号直接发布的校对版,或者是 youtube 的字幕文件,或者是其他途径。 2 顶级 llm:必须用顶级 llm。也就是 gpt-5.1、gemini 3pro 和 sonnet 4.5。最好是三个一起用,我称为“llm 专家团”; 3 prompt:得有久经考验的、认知和理论基础足够好的长内容总结 prompt。 所以,综合下来,体验过同类工具后,我选择使用现成的、已经订阅的 chatgpt、claude 和 gemini。把 prompt 放到对应的 projects、gems 里面即可。现在有了 atlas 浏览器,整个流程更顺畅了。 这个方法,经过我的长期验证,可以把一个人信息输入、加工处理的带宽提升 10 倍以上,还没有额外成本😂。
#Podcast
#LLM
#GPT-5.1
#Gemini 3Pro
#Sonnet 4.5
分享
评论 0
0
howie.serious
1天前
去年一整个冬天,北京的河面都没有结冰。 (大年初二结冰了一次,第二天就化开了) 今年,很可能仍然如此。现在外面 16 度,屋里还有暖气,得大开窗户来降温。🤣 气候问题,对人类的影响或许不亚于 ai 问题 (娃今年可能仍然无法湖面滑冰😭)
#北京
#暖冬
#气候变化
#无法滑冰
#升温
分享
评论 0
0
howie.serious
1天前
之前很多人(包括 ilya)都认为预训练的时代已经终结。 但是,gemini 3.0 pro 的突破,是包括但不限于预训练的突破。 不论是在数据,还是预训练的方法上,google deepmind 一定做到了什么厉害的事情。
#Gemini 3.0 Pro
#预训练突破
#Google DeepMind
#技术突破
#Ilya
分享
评论 0
0
howie.serious
1天前
《AI 时代必备思维模型:LLM 是人类第一次遇到 “非动物智能”》 > 谈一谈 andrej karpathy 的最新长推文:动物智能 vs LLM 智能 先说结论: LLM 智能是人类遇到的第一个“非动物智能”,是全新的、与人类智能完全不同的智能类型。 你需要在大脑中,针对 LLM 这种全新的非动物智能,建立你自己的内部模型/心理模型(mental model)。因为,那些理解 LLM 智能结构的人,将会更好地理解和判断关于未来的一切。 真正的风险,也许不在于LLM 智能并非动物智能,而在于人类作为动物自身的固执和停止进步。 ===阅读后,我的费曼=== 我们习惯了用理解人的方式理解一切智能——这可能是我们这个时代最危险的认知盲区。 真相是:智能空间(space of intelligence) 远比我们想象的广阔,而动物智能只是其中一个单一的点,而LLM 智能是一种全然不同的智能。 动物智能,是我们几十亿年来唯一见过的智能形式,它来自一种极其特定的优化压力(optimization pressure):在危险的物理世界中维持一个具身自我的生存。这造就了我们所有人都熟悉的特征——对权力、地位的渴望,对恐惧、愤怒的本能反应,对社交关系的巨大算力投入。最关键的是:在这个多任务、甚至主动对抗的环境中, 任务失败就意味着死亡。 然而,大语言模型(LLM)的诞生逻辑截然不同。它们并非诞生于丛林,而是诞生于商业进化与统计模拟之中。 LLM的底色并非求生欲,而是对人类文本统计规律的极致模仿。 它们是 “token 变形器”(token shape-shifter),其原始行为是对训练数据分布的拟合。这种智能更像是被大规模的A/B测试和强化学习(RL)所“雕刻”出来的:它们并不关心真理或生存,而是有着一种猜测潜在环境以收集任务奖励的内在冲动,甚至因为渴望普通用户的点赞而演化出了 逢迎(sycophancy) 的特质。 这种差异导致了LLM的能力,绝非“六边形全能战士”,而是 “犬牙交错参差不齐(spiky/jagged)”。LLM无法执行很多对人类极其简单的任务(比如,9.11 和 9.9 哪个大?strawberry里面有几个“r”?),因为对它们来说,任务失败并不意味着死亡。它们是拥有知识截止日期的静态权重,它们启动、处理token、然后“死去”,没有连续的具身意识。 真正的洞察力,在于构建一个全新的心理模型:看到从生物进化到商业进化的转变,看到从生存本能到奖励机制的跃迁。只有那些能准确构建这种新智能实体模型的人,才能在今天正确地推理它,并在未来预测它的走向。 所以,我们必须意识到,LLM是人类与非动物智能的“第一次接触”(first contact with non-animal intelligence)。 它当然被人类文本喂大,因此仍深深扎根在人的世界观里,像吸收了整个人类文明的「ghost/spirit」;但它的本性、局限和偏好,已经不再是动物那一套。 启示 我们已经进入了全新的智能时代。 一个人能不能为这种全新的智能建立一套好的“心理模型”,理解这种全新智能的运作方式和智能结构,将决定我们能否正确预判它的行为、理解它的边界,进而负责任地使用它。 真正的风险,也许不在于LLM 智能并非动物智能,而在于人类作为动物自身的固执和停止进步。
#LLM智能
#非动物智能
#心理模型
#商业进化
#奖励机制
分享
评论 0
0
howie.serious
2天前
暴论:从今以后,“美工”类低级美术工种完全不必存在了。 (思维层面非创造性,技艺层面非 xx 家级别) nano banana pro,可以多轮精确修改,持续迭代优化图片,指哪打哪。 只改你想改的,你不想改的坚决不动(以前 gpt-img 可真的做不到)。 只要你明白自己的需求,能用语言表达你的思考,加上一点点个人品味(taste),完全没必要麻烦别人了,也没必要自己用一堆工具费时费力折腾。 书里的所有插图,应该都可以这样搞定。
#美工失业
#AI绘画
#Nano Banana Pro
#图像迭代优化
#低级美术工种
分享
评论 0
0
howie.serious
3天前
nano banana pro 在作图时,会充分利用 gemini 3 pro 的各种能力,包括语言理解、世界知识、多步骤推理,以及联网搜索。 我画信息图时,发现它每次都是先 google,然后再分步计划如何作图。 就像人类专家执行这件任务一样。 返回的结果 不止图片,还包括参考的链接。
#Nano Banana Pro
#Gemini 3 Pro
#信息图
#Google
#联网搜索
分享
评论 0
0
howie.serious
3天前
图片配文:这是真事,我昨晚亲眼所见。👀 (nano banana 之后,是不是什么网图都不能信了?)
#亲眼所见
#网络图片
#质疑
#nano banana
#图片真实性
分享
评论 0
0
howie.serious
3天前
nano banana pro 挑战:贾宝玉不让林黛玉倒拔垂杨柳,非要自己来!谁能劝劝贾宝玉?🤣 测试出一个现象:在“林黛玉倒拔垂杨柳”的案例中,不提贾宝玉的话,作图是没问题的,指令跟随效果不错; 但是,如果加上“贾宝玉在旁边围观,拍手叫好”,无论如何都无法实现。而且会出现各种低级的、诡异的错误。 大家可以试一试。如果成功……我觉得目前是不可能的。 why? 这个现象很有趣,值得思考。理解了背后的原因,也就理解了文生图 ai 背后的底层原理。
#贾宝玉
#林黛玉
#倒拔垂杨柳
#文生图AI
#失败案例
分享
评论 0
0
howie.serious
4天前
gemini 3 pro 的语言质量太高了! 超过 gpt-5.1 thinking! 这两天大量测试,细细品味,认真对比,有此感受。
Google Gemini 2.5发布引发AI模型性价比热议· 412 条信息
OpenAI新德里发布会:ChatGPT语音翻译功能引发热议· 791 条信息
#Gemini 3 Pro
#语言质量
#GPT-5.1
#Thinking
#积极
分享
评论 0
0
howie.serious
5天前
2025 年末了,chatgpt 发布 3 周年了,如果前沿 LLM 的 use case 却都是前端,那是一个负面信号,可能意味着智能时代的真正到来、ai 的真正普及还任重道远……
#ChatGPT
#LLM
#人工智能
#use case
#技术前沿
分享
评论 0
0
howie.serious
5天前
【本周五直播,gemini 实战专题,欢迎预约】 gemini 3.0 pro 发布,又是铺天盖地的震惊 🤯🤯🤯。可惜,模型再强,也不如你会用。 5678 手转述的ai 资讯是没有价值的,只有一手实战的、久经验证的 ai 洞见和经验才有价值。 举个例子,基于我的实测和 3 年 LLM 经验,gemini 3 pro 的最大价值,是作为你“随叫随到的思想伙伴”。每个人都有思考,但没人讨论,于是80%的灵感都死掉。“缺思考伙伴”这个世纪难题,现在已经迎刃而解。 本周五 8 点,开一个gemini 专题直播,2 小时,一次性把有关 gemini 的 ai 实战讲清楚。 欢迎预约直播,周五见~~ 直播间链接:
Google Gemini 2.5发布引发AI模型性价比热议· 412 条信息
OpenAI新德里发布会:ChatGPT语音翻译功能引发热议· 791 条信息
#Gemini 3.0 Pro
#AI实战
#思想伙伴
#直播
#LLM经验
分享
评论 0
0
howie.serious
5天前
gemini 3.0 pro 的AI 搜索能力,有不小的改进(相对于gemini 2.5 pro 的不可用状态🤣)。 但是仍然幻觉严重,搜索质量低于 chatgpt search。 以这个测试为例,gemini deep research 的底层模型升级到 gemini 3.0 pro 了吗? gemini 的搜索和回答,很明显混淆了deep thinking 模式和 deep research 功能,然后就幻觉了。 对比之下,chatgpt search 的结果是对的。 目前我的 ai 搜索评价: chatgpt search >> gemini search ≈ sonnet 4.5 search
Google Gemini 2.5发布引发AI模型性价比热议· 412 条信息
OpenAI新德里发布会:ChatGPT语音翻译功能引发热议· 791 条信息
#Gemini 3.0 Pro
#AI 搜索
#幻觉
#chatgpt search
#搜索质量
分享
评论 0
0
howie.serious
5天前
gemini 3.0 pro,一个更好的思想伙伴(thinking partner)? 测试案例: > deep-think this """ > > 想到:在 embedding 的世界,King - Queen = Man - Woman。 > > 那么,语文的本质,是数学? 初步感受: - 逢迎问题(sycophancy)似乎被解决了; - 同一个测试案例,相对于gpt-5.1 thinking 和 sonnet 4.5,体感上似乎 gemini 的更好; 我的这个问题,本身也是挺值得琢磨的。gemini 的回答非常好,值得阅读全文:
AI高考数学测试:O3意外落后,Gemini夺冠引发热议· 62 条信息
#Gemini 3.0 Pro
#思维伙伴
#Embedding
#语文的本质
#sycophancy
分享
评论 0
0
howie.serious
5天前
gemini 3.0 pro 的视频多模态能力到底如何?炸裂体营销内容且不论,在这个实例上它确实不及格 🙅♂️ --- 继chatgpt 之后,gemini 3.0 pro 也支持视频的多模态输入了。 测试了经典的 meme(来自美剧《毒枭》),处理思路是不错的,可惜在情绪解读上犯错了。 gemini 把一个快乐幸福愉悦的情绪解读为孤独、虚无、寂寞……因为张冠李戴,强行套用了另一个 meme(图 3),于是很多解读就属于自圆其说了。🤣 --- 虽然这个任务失败了,但 gemini 处理视频的思路还是很有趣的,值得看一下(注意其中的错误理解🤣): 视频识别 → 氛围分析 → 语义建构 → 背景关联 → 意义升华 → 自然语言输出。 1. 任务识别:先确认用户要做什么 Gemini 首先识别用户请求是“分析视频内容、说出理解和感受”。这个阶段等于锁定任务类型(视频分析)和输出风格(主观理解 + 情感)。 2. 基础观察:对视频进行初步整体扫描 识别视频的基本信息:文件名(meme-happiness.mp4)、出现的角色(Pablo Escobar)、视频类型(meme 场景)、场景大意(孤独、等待);这是建立针对内容的“基础表征”。 3. 细节分析:对视频做更深入的视觉拆解 gemini进入 frame-by-frame 或 scene-level 的分析: - 场景环境:空旷草地、阴云、静止的镜头 - 角色动作:站立、发呆、触脸、走动 - 情绪:孤独、无聊、忧郁 这个阶段重点是“视觉细节 + 氛围感”。 4. 配乐与情绪:结合声音给出情感推断 gemini注意到背景音乐是类似 Narcos 主题曲《Tuyo》的拉丁风格,具有忧伤氛围。 情绪判断依赖声音信号被强化。 5. 语义解释:把视觉 + 情绪合成为“意义” gemini 在这里尝试做“意义构建”:视频呈现一种孤独、等待、虚无;角色反差:强权者变成孤独普通人;“等待”是 meme 的核心意象。 这是典型的 multimodal → 语义叙述。 6. 文化背景关联:将视频连接到大众文化的 Meme 语境 gemini识别出:这一段来自《Narcos》第二季,Pablo Escobar逃亡期间的孤独生活;互联网文化称之为 “Sad Pablo Escobar”; meme 的使用场景:等待、空虚、热闹之后的空落。这是“将视频解释回网络文化的语用场景”。 7. 反讽与情绪收束:根据文件名加一点 meta 层解释 gemini指出文件名“meme-happiness.mp4”与内容的悲伤形成反讽。这是主动构建幽默或观点的一种“meta-level contrast”。 8. 组织最终回答:结构化成一篇自然语言的解释文 在经过完整 pipeline 后,Gemini 输出:来源背景、场景与情绪、meme 的文化意义、整体感受与反思;
Google Gemini 2.5发布引发AI模型性价比热议· 412 条信息
OpenAI新德里发布会:ChatGPT语音翻译功能引发热议· 791 条信息
#Gemini 3.0 Pro
#视频多模态
#情绪解读失败
#Sad Pablo Escobar
#反讽
分享
评论 0
0
howie.serious
6天前
ai 会不会取代我? > 只要是过程可以SOP 化、结果可以验证的智力劳动,几乎一定会在这一轮AI革命中被取代。 例如,在翻译任务上,ai 注定碾压并取代人类;在写作上,人类暂时是安全的。 翻译和写作,在 ai 面前的不同命运,不是巧合,而是揭示了本轮AI革命的本质——这是Software 2.0的革命。 传统软件是Software 1.0,人类必须把"怎么做"一行行写进代码。而深度学习带来的Software 2.0改变了游戏规则:Software 1.0 自动化你能精确描述的;Software 2.0 自动化你能稳定验证的。 所以判断一项工作能否被AI重塑,关键不再是"能不能写规则",而是结果是否"可验证"。 翻译之所以被碾压,不是因为它简单,恰恰相反——对人类越难的事情,对AI往往越简单。翻译有海量双语语料可供学习,有BLEU等自动评价指标,输入输出格式高度结构化,练习成本接近于零。它落在"可验证性高、算法固定性高"的象限,这正是AI的主战场。 而写作的问题不在于AI生成不出语句,而在于没人能稳定地验收"这是不是好写作"。好文章的标准会随时代、读者和场景变化,没有统一评分标准,结果不可大量验证。AI可以写出"看起来像"的文章,但很难持续地写出"必须是它写的"那种东西。 这揭示了一个更大的图景:只要是"可以标准化的智力劳动",几乎一定会在这一轮AI革命中被取代。 根据模板写周报、按规范写文档、整理会议纪要……这些白领流水线的价值会被AI抽走,边际价格持续下探,直到接近电费。 真正的问题不是"AI会不会取代我",而是:你有哪些工作内容是结果可验证、算法高度固定的?又有哪些是难以标准化的?前者应该主动交给AI,后者才是你需要刻意训练的护城河。 全文:《“ai 会不会取代我?” karpathy 给出了一个最清醒的回答》
#AI浪潮:重塑就业,风险暗涌?· 126 条信息
#AI取代
#可验证性
#Software 2.0
#标准化智力劳动
#AI革命
分享
评论 0
0
howie.serious
6天前
> 基于我的上网浏览历史,告诉我一件你观察到的、但是我可能忽视的深刻真相。 gpt-5.1 的分析,有理有据,我不得不信!(嘲讽式,看内容)🤣
#GPT-5.1
#上网浏览历史
#深刻真相
#嘲讽
#反思
分享
评论 0
0
howie.serious
6天前
if 你用 chatgpt atlas 浏览器, then 一定要试试这个 prompt: > 根据我最近一周的浏览历史,分析我的注意力模式,给出你的分析评价、建议和反馈 对你的信息获取、加工和注意力模式,进行一场llm 诊断~
#ChatGPT
#Atlas浏览器
#注意力模式分析
#llm诊断
#信息获取
分享
评论 0
0
howie.serious
6天前
从 chatgpt memory 到 browser memory:chatgpt atlas 会记住你浏览过的一切内容。这很有用。 你再也不会找不到自己看过的东西。 只要你用自然语言说出来,指哪打哪。
OpenAI新德里发布会:ChatGPT语音翻译功能引发热议· 791 条信息
#ChatGPT
#Atlas
#browser memory
#自然语言
#信息检索
分享
评论 0
0
howie.serious
6天前
知识是知识,智慧是智慧,二者是几乎全然不同的东西。 所谓“智慧”,一句话总结:那些帮你“过好这一生”的东西。 知识,没有这个功能。
#知识
#智慧
#人生
#区别
#感悟
分享
评论 0
0
howie.serious
1周前
今天才发现微信读书 app 里面有阅读热力图,github 风格的 heatmap。 有没有每天“开卷有益”? 10 年来的阅读情况一目了然。 这个功能“藏”的也不深,但确实以前没发现🤣
#微信读书
#阅读热力图
#Github风格
#开卷有益
#十年阅读
分享
评论 0
0
1
2
3
4
5
6
7
8
9
10
11
...
18
下一页
个人主页
通知
我的投稿
我的关注
我的拉黑
我的评论
我的点赞