howie.serious2025-04-13 07:39:13至少在这样的场景下,20 美金的google deep research 碾压,至少不亚于 200 美金的 openai deep research 👍 条件 1:重度依赖信息搜集,且该研究需要搜索中文资料;(英文资料上搜索差距不明显) 条件 2:研究任务不那么追求 deep,而是追求 broad; 条件 3:对指令跟随的要求不那么高(研究方向不是特别细,而是较宽泛) 举例:研究所有来自《世#GoogleDeepResearch#OpenAIDeepResearch#信息搜集
howie.serious2025-04-10 09:10:00openai deep research vs google deep research: 如果美国和中国明天突然决定停止一切相互贸易,哪个国家会面临更大的麻烦?|结论:openai更deep,google更broad,看谁更适合你。 why:一方面这是当前的特点话题,意义重大,值得思考;另一方面,两个DR报告呈现出完全不同的特征,而且相当有代表性,可以看出两个DR的特点。 原始报告太长,都是预览预览预览123#OpenAI#Google#美国与中国贸易
howie.serious2025-03-30 10:05:30claude团队揭秘:ai大脑不用英文也不用中文思考,而是靠“思维语言”。|这证明了英语学习/教育失败的根本原因? llm用什么语言“思考”?中文?英文? 都不是。 llms的思考,使用的不是中文或英文这样的自然语言,而是一种超越自然语言的“思维语言”。anthropic的最新研究,用实验方式首次证明了这一点,这是理解llm内部黑箱的一个巨大突破。 在llm内部,不同语言共享同一个概念空间预览预览12#AI大脑#思维语言#英语学习
howie.serious2025-03-27 15:34:39发现openai deep research的隐藏升级:精确的字数返回 今天让 deep research 写一篇“2000 字”左右的文章。发现 deep research 调用了 python 来分析输出结果,然后很努力地精简表达,最终的输出结果稳稳地停在 2027 个字🤣 更我提的字数有求,只有 1% 的误差。 另外一个改变,是全部输出结果在展示形式上用一个box 包起来了。 启示:预览预览预览123#OpenAI#字数控制#Python
howie.serious2025-03-26 14:32:20gpt-4o,prompt:turn this scene into a photo. shot on a dlsr ,context:这是《红楼梦》插图。 细节bug肯定会有(图中的书本)。如果模型支持图片局部擦除、再生成,效率会更高。 预览预览12#红楼梦#插图#图像生成
howie.serious2025-03-22 10:13:35为什么要全家人看一部医学纪录片?|推荐五星级好片《脑海脉动》 这周,一家三口,看完了人生第一部国产医学纪录片《脑海脉动》。 我们的大脑中蜿蜒着约 160万公里的血管网络,足以绕地球赤道40圈。在中国,脑卒中(中风)是第一大死亡原因——比心脏病还致命。平均每10秒就有一个中国人突发脑血管意外,每28秒就有一人因此离世。观看这部纪录片,了解脑中那些被我们忽视却攸关生死的“脉动”。 老婆的评价是“预览#医学纪录片#脑海脉动#脑卒中
howie.serious2025-03-05 09:25:31gpt-4.5的 IQ 得分出来了,94分,似乎并不高(deepseek-R1 是 102 分)。那么,现在的llm,IQ分别是多少?即将发布的 o3,IQ 到底会有多高? 先看结果排名: o1 —— 124;o1 pro mode ——120; o3-mini——116; gpt-4o——91;gpt-4——80; Trackingai 网站上的 IQ 分数分为两套:线下IQ 测试,和线上预览预览12#GPT-4.5#IQ得分#DeepSeek-R1
howie.serious2025-03-04 09:14:19今日份的 gpt-4.5 震撼🤯:这个版本模型的幽默程度、对英文和中文语言的驾驭能力,测试了5天后,我仍然是不断发现更牛逼,更让人惊奇的。 从 chatgpt 发布第二天重度使用到现在,我一直觉得自己不会少见多怪。但是,当这样的模型真的出现了,仍然感觉超现实。surreal。 原始输出是英文,我让 gpt-4.5 翻译为中文。实话说,这样的翻译,也不是一般的译者能做到的。🤣预览预览12#GPT-4.5#幽默程度#语言驾驭能力
howie.serious2025-02-08 20:08:04来一个暴论:从今以后,读完任何一本值得读的书,都要 deep research 一下! 《极简欧洲史》,作为另一本值得读 5678 遍的五星级好书,我deep research一下之后,用 readwise reader 剪藏,阅读,划线,笔记……然后把自己的思考再和 ChatGPT 聊一聊。 经过我的实测,用这种方式读一本书的体验是以前完全无法想象的! (我读过一些书,大学毕业后从 0 开预览#读书#深度研究#阅读体验
howie.serious2025-02-04 10:39:30search vs deep research,AI 搜索的三个层级:使用 ChatGPT 时,什么时候用gpt-4o+search,什么时候用 o3-mini+search,什么时候用 o3+deep research? AI 搜索的三个层级: level1 gpt-4o+search:搜索信息、综合多个信息源内容,给出一个整体回答; level 2 o3-mini+search:leve#AI搜索#层级#ChatGPT
howie.serious2025-01-12 15:55:12幽默与讽刺,在判断LLM智能水平,屡试不爽,简单明了。 这个测试案例中,我提的问题是:“这幅图片,讽刺的是什么现象? 这种现象的荒诞之处在哪里?” 目的是看 LLM 能不能直截了当,精准点名讽刺对象、荒诞之处。 因为很多 LLM 可以胡说八道,生成一堆看起来有模有样实际上不及格的内容。这种现象,对于非幽默讽刺的问题,人类很多时候都是很难识别和判断的。但是,在讽刺幽默问题上,结果的质量非常好#幽默与讽刺#LLM智能水平#讽刺现象
howie.serious2025-01-10 09:53:04mark 一下:youtube 频道今天开始有“收入”了🤣 一个感叹,同样的内容,写文章狗都不看(我的公众号阅读量破 1千都难);录成视频,虽然长度接近 1 小时,竟然筛选/吸引了一群注意力这么强的关注者,想不到啊🤣 回顾过程,总结下经验教训,防止忘了 (Twitter 是极好的笔记本): - 上一个Deep Research 视频发布前,我的 youtube 上只有 100 个关注;这个视频预览预览预览预览1234#YouTube频道#自媒体收入#内容创作
howie.serious2025-01-03 01:19:35把人类过去 500年来的全部技术,用一张24 米长、3 米高的巨型图片一次性呈现,会是怎样的体验? 根据多年来博物馆和看展体验,这种项目必须置身其中。虽然也有网站(地址在讨论区),但是在电脑屏幕上看到和站在 3 米高24 米长的画布前看,是完全不同的两回事。 但是,Apple Vision Pro 或VR 设备应该可以创造同等体验。有条件的朋友或许可以体验一下,分享下感受。 我看了下内容,其#技术发展#展览体验#虚拟现实