howie.serious2025-05-29 22:44:20作为一个免费开源 llm,deepseek-R1 的 benchmark 分数确实吓人。 预览#DeepSeek-R1#Benchmark#开源
howie.serious2025-05-29 22:32:01deepseek 真的是 llm 顶流待遇。 没有哪家模型的版本号更新(例如 gpt-4o-1104)会激起如此大的声浪 🌊#DeepSeek#LLM#GPT
howie.serious2025-05-29 10:45:33知乎上流行的这种按钮/开关/药丸类“道德难题”,是互联网低智化的一种表现,其本质就是“流量密码”(少数人玩弄,多数人被玩弄)。 这是一种人为设计的两难困境,意义不大的那种:不过用一种虚假的、永远不可能出现的假设来揭示、加剧了人们的意识形态分裂。 看起来激发思考,是“思想实验”,但实际认知门槛极低,表达成本极低(即使没脑子也可以做出一个“选择”),所以每个人都参与进来,流量极大; 认知门槛低,预览#道德难题#低智化#流量密码
howie.serious2025-05-28 08:48:11红杉中国推出了ai agent的基准测试平台 xbench。目前o3在4项测试中全部排名第1,断档式领先。 对于这种新事物,我就不装“万事通”了:大家都是第一次听说,我刚在logseq里面新建了名为“xbench”的笔记,自己转述信息的质量不高,意义不大。 请看来自o3的详细且全面介绍🤣 预览预览预览预览1234#红杉中国#XBench#o3
howie.serious2025-05-26 09:02:50不论你今天状态是 100% 还是 5%,雷打不动,横竖发一篇文章,这就是 discipline 🤣 (以日更实验为例。其他同理。 我家小学生,不管刮风下雨,横竖每天自己做两道 c ➕➕题目) 预览#坚持#日更#自律
howie.serious2025-05-25 23:59:19过去 100 天里,我完成了一个实验/游戏:公众号日更 100 天。 这个过程的顺带结果,是小破号订阅翻了一倍,增加 2 万关注。(同期推特关注要少一些) (另一个习惯是每天写点东西,无痛,自然而然。结果发现,一个人的思考其实太多了,日更都囤了大量主题没顾上发。可见只输入只思考真是终身学习者子死敌!) 这个实验的顺带后果是没顾上刚起步的 youtube(一个月内从零新增了 10000 关注)#公众号日更#订阅增加#终身学习
howie.serious2025-05-25 18:59:19#暴论 :别折腾各种不明觉厉的prompt了。 氪一点金,使用最高IQ的模型(例如,不限量的o3+gpt-4.5搭配)比折腾prompt 有效多了。 一个建议:拿200美金测试一下。开一个月pro,以上1000条o3,500条gpt-4.5,保证你下个月再也不想在prompt上浪费时间了。 模型即产品。用最好的模型,就是在ai时代对自己最大的尊重。#暴论#Prompt#模型
howie.serious2025-05-24 05:04:47 如果你觉得这个 ai 视频转场很自然, 那就说明原来那张照片确实有点怪, 因为那说明 ai 的数据分布里,那张照片也被如此分类。#AI#视频转场#数据分布
howie.serious2025-05-23 13:48:12openai 和 jony ive 合作的 ai 硬件,“ai 版 iphone”,或许大概可能这是类似这样的设备? 不一定是挂脖子。和“her”里面的 Samantha 设备应该差不多。 预览#OpenAI#JonyIve#AI硬件
howie.serious2025-05-18 08:49:34爱死机第4季看完了,确实差,不及格。怀念第一季的zima blue。 === 作为网飞“高概念”娱乐电影/内容(high concept)的典型,爱死机竟然装都不装了。 (所谓high concept,是好莱坞电影工业的营销词汇,追求一眼吊的牛逼概念,认知成本低,逼格高。想更具体理解的话,就是知识付费领域XX的那种风格) 烂到连故事都不愿意讲了,直接就是高概念大标题+PPT式感官动画交差。预览预览预览预览1234#爱死机#Netflix#高概念娱乐
howie.serious2025-05-17 14:03:51那些道貌岸然的畜生家长,绝非儿童抑郁症的受害者,而是 100% 的施害者,是杀人凶手。 这三张图是朋友发给我的。我仔细读了,结论就一个:这两家长是畜生。 孩子遗书里写的清清楚楚,是父母逼死了她,是因为考试。 父母却傻逼嘻嘻,用“阳光型/微笑型抑郁症”(不存在这种东西,就是父母不 care,不关心) 来污名化孩子,洗脱自己。 具体来说,这件事里面,孩子是受害者,家长是施害者(绝对不配装可怜预览预览预览123#家庭教育#儿童抑郁症#父母责任
howie.serious2025-05-02 16:30:01不论什么奇谈怪论,o3一下,立刻现出原形。 o3 咒语:critical-think this。 另一个咒语:fact-check this。 预览预览预览123#奇谈怪论#o3#批判性思维
howie.serious2025-04-18 08:46:43o3的IQ分数出来了:线下测试 116分;线上测试 136分; 第二名是gemini 2.5 pro:线下115分;线上 128分; trackingai网站每周会测试一次llm的智商,然后取平均值;测试方法还分为线上和线下两种,一般线上测试比线下要高20分。 人类测智商一般也是线上的,当然,线下测试(例如去某医院心理科挂号排队测智商,然后提交给学校筛选🤣)更“权威”。 o3的IQ比我之前预览预览预览123#AI智商测试#o3#线上线下测试
howie.serious2025-04-13 07:39:13至少在这样的场景下,20 美金的google deep research 碾压,至少不亚于 200 美金的 openai deep research 👍 条件 1:重度依赖信息搜集,且该研究需要搜索中文资料;(英文资料上搜索差距不明显) 条件 2:研究任务不那么追求 deep,而是追求 broad; 条件 3:对指令跟随的要求不那么高(研究方向不是特别细,而是较宽泛) 举例:研究所有来自《世#GoogleDeepResearch#OpenAIDeepResearch#信息搜集
howie.serious2025-04-10 09:10:00openai deep research vs google deep research: 如果美国和中国明天突然决定停止一切相互贸易,哪个国家会面临更大的麻烦?|结论:openai更deep,google更broad,看谁更适合你。 why:一方面这是当前的特点话题,意义重大,值得思考;另一方面,两个DR报告呈现出完全不同的特征,而且相当有代表性,可以看出两个DR的特点。 原始报告太长,都是预览预览预览123#OpenAI#Google#美国与中国贸易
howie.serious2025-03-30 10:05:30claude团队揭秘:ai大脑不用英文也不用中文思考,而是靠“思维语言”。|这证明了英语学习/教育失败的根本原因? llm用什么语言“思考”?中文?英文? 都不是。 llms的思考,使用的不是中文或英文这样的自然语言,而是一种超越自然语言的“思维语言”。anthropic的最新研究,用实验方式首次证明了这一点,这是理解llm内部黑箱的一个巨大突破。 在llm内部,不同语言共享同一个概念空间预览预览12#AI大脑#思维语言#英语学习
howie.serious2025-03-27 15:34:39发现openai deep research的隐藏升级:精确的字数返回 今天让 deep research 写一篇“2000 字”左右的文章。发现 deep research 调用了 python 来分析输出结果,然后很努力地精简表达,最终的输出结果稳稳地停在 2027 个字🤣 更我提的字数有求,只有 1% 的误差。 另外一个改变,是全部输出结果在展示形式上用一个box 包起来了。 启示:预览预览预览123#OpenAI#字数控制#Python
howie.serious2025-03-26 14:32:20gpt-4o,prompt:turn this scene into a photo. shot on a dlsr ,context:这是《红楼梦》插图。 细节bug肯定会有(图中的书本)。如果模型支持图片局部擦除、再生成,效率会更高。 预览预览12#红楼梦#插图#图像生成
howie.serious2025-03-22 10:13:35为什么要全家人看一部医学纪录片?|推荐五星级好片《脑海脉动》 这周,一家三口,看完了人生第一部国产医学纪录片《脑海脉动》。 我们的大脑中蜿蜒着约 160万公里的血管网络,足以绕地球赤道40圈。在中国,脑卒中(中风)是第一大死亡原因——比心脏病还致命。平均每10秒就有一个中国人突发脑血管意外,每28秒就有一人因此离世。观看这部纪录片,了解脑中那些被我们忽视却攸关生死的“脉动”。 老婆的评价是“预览#医学纪录片#脑海脉动#脑卒中
howie.serious2025-03-05 09:25:31gpt-4.5的 IQ 得分出来了,94分,似乎并不高(deepseek-R1 是 102 分)。那么,现在的llm,IQ分别是多少?即将发布的 o3,IQ 到底会有多高? 先看结果排名: o1 —— 124;o1 pro mode ——120; o3-mini——116; gpt-4o——91;gpt-4——80; Trackingai 网站上的 IQ 分数分为两套:线下IQ 测试,和线上预览预览12#GPT-4.5#IQ得分#DeepSeek-R1
howie.serious2025-03-04 09:14:19今日份的 gpt-4.5 震撼🤯:这个版本模型的幽默程度、对英文和中文语言的驾驭能力,测试了5天后,我仍然是不断发现更牛逼,更让人惊奇的。 从 chatgpt 发布第二天重度使用到现在,我一直觉得自己不会少见多怪。但是,当这样的模型真的出现了,仍然感觉超现实。surreal。 原始输出是英文,我让 gpt-4.5 翻译为中文。实话说,这样的翻译,也不是一般的译者能做到的。🤣预览预览12#GPT-4.5#幽默程度#语言驾驭能力
howie.serious2025-02-08 20:08:04来一个暴论:从今以后,读完任何一本值得读的书,都要 deep research 一下! 《极简欧洲史》,作为另一本值得读 5678 遍的五星级好书,我deep research一下之后,用 readwise reader 剪藏,阅读,划线,笔记……然后把自己的思考再和 ChatGPT 聊一聊。 经过我的实测,用这种方式读一本书的体验是以前完全无法想象的! (我读过一些书,大学毕业后从 0 开预览#读书#深度研究#阅读体验
howie.serious2025-02-04 10:39:30search vs deep research,AI 搜索的三个层级:使用 ChatGPT 时,什么时候用gpt-4o+search,什么时候用 o3-mini+search,什么时候用 o3+deep research? AI 搜索的三个层级: level1 gpt-4o+search:搜索信息、综合多个信息源内容,给出一个整体回答; level 2 o3-mini+search:leve#AI搜索#层级#ChatGPT