时政
财经
科技
虚拟货币
其他
登录
howie.serious
关注
统计数据
353
文章
0
粉丝
0
获赞
2792
阅读
热门文章
1
TechFlow 深潮 发布的文章:近期教育领域的变化引发了广泛讨论,我认为教育改革应该更加注重学生的个性化发展和创新能...
145
32
howie.serious
4个月前
不论你今天状态是 100% 还是 5%,雷打不动,横竖发一篇文章,这就是 discipline 🤣 (以日更实验为例。其他同理。 我家小学生,不管刮风下雨,横竖每天自己做两道 c ➕➕题目)
#坚持
#日更
#自律
#编程学习
#C++
#日常
#时间管理
分享
评论 0
0
howie.serious
4个月前
openai 确实上周跳票了:本来应该推出 o3-pro 的。
#OpenAI
#跳票
#O3-Pro
#产品发布
#人工智能
分享
评论 0
0
howie.serious
4个月前
过去 100 天里,我完成了一个实验/游戏:公众号日更 100 天。 这个过程的顺带结果,是小破号订阅翻了一倍,增加 2 万关注。(同期推特关注要少一些) (另一个习惯是每天写点东西,无痛,自然而然。结果发现,一个人的思考其实太多了,日更都囤了大量主题没顾上发。可见只输入只思考真是终身学习者子死敌!) 这个实验的顺带后果是没顾上刚起步的 youtube(一个月内从零新增了 10000 关注)。起步之后就撂荒了 100 天🤣 但是,我是把知识视频(半小时以上,最终向 kaparthy 的 3 小时视频看齐)作为严肃目标的。现在,准备重启知识视频。重启的定义,是每周更新至少一个长知识视频(半小时以上,最好一小时)。 这算一个新实验/游戏。🎮 此贴为 flag。🚩
#公众号日更
#订阅增加
#终身学习
#个人习惯
#社交媒体增长
分享
评论 0
0
howie.serious
4个月前
#暴论 :别折腾各种不明觉厉的prompt了。 氪一点金,使用最高IQ的模型(例如,不限量的o3+gpt-4.5搭配)比折腾prompt 有效多了。 一个建议:拿200美金测试一下。开一个月pro,以上1000条o3,500条gpt-4.5,保证你下个月再也不想在prompt上浪费时间了。 模型即产品。用最好的模型,就是在ai时代对自己最大的尊重。
#暴论
#Prompt
#模型
#AI时代
#建议
#GPT-4.5
#IQ
#产品
#测试
#浪费时间
#最好的模型
分享
评论 0
0
howie.serious
5个月前
如果你觉得这个 ai 视频转场很自然, 那就说明原来那张照片确实有点怪, 因为那说明 ai 的数据分布里,那张照片也被如此分类。
#AI
#视频转场
#数据分布
#图片分类
分享
评论 0
0
howie.serious
5个月前
openai 和 jony ive 合作的 ai 硬件,“ai 版 iphone”,或许大概可能这是类似这样的设备? 不一定是挂脖子。和“her”里面的 Samantha 设备应该差不多。
#OpenAI
#JonyIve
#AI硬件
#Her电影
#Samantha设备
#创新科技
分享
评论 0
0
howie.serious
5个月前
爱死机第4季看完了,确实差,不及格。怀念第一季的zima blue。 === 作为网飞“高概念”娱乐电影/内容(high concept)的典型,爱死机竟然装都不装了。 (所谓high concept,是好莱坞电影工业的营销词汇,追求一眼吊的牛逼概念,认知成本低,逼格高。想更具体理解的话,就是知识付费领域XX的那种风格) 烂到连故事都不愿意讲了,直接就是高概念大标题+PPT式感官动画交差。 当年第一季是极好的,尤其是zima blue那一集,到现在还记得当时的震撼。属于写到大脑神经网络参数中的那种震撼。
#爱死机
#Netflix
#高概念娱乐
#影视评论
#动画
#故事性
分享
评论 0
0
howie.serious
5个月前
那些道貌岸然的畜生家长,绝非儿童抑郁症的受害者,而是 100% 的施害者,是杀人凶手。 这三张图是朋友发给我的。我仔细读了,结论就一个:这两家长是畜生。 孩子遗书里写的清清楚楚,是父母逼死了她,是因为考试。 父母却傻逼嘻嘻,用“阳光型/微笑型抑郁症”(不存在这种东西,就是父母不 care,不关心) 来污名化孩子,洗脱自己。 具体来说,这件事里面,孩子是受害者,家长是施害者(绝对不配装可怜,装坚强,装个人); 普遍来说,这件事绝非个例。遇到这种只看考试,不关心孩子本人的家长,孩子算倒了八辈子霉了!
#家庭教育
#儿童抑郁症
#父母责任
#心理健康
#暴力教育
#社会问题
分享
评论 0
0
howie.serious
5个月前
不论什么奇谈怪论,o3一下,立刻现出原形。 o3 咒语:critical-think this。 另一个咒语:fact-check this。
#奇谈怪论
#o3
#批判性思维
#事实核查
#咒语
分享
评论 0
0
howie.serious
6个月前
绝对干货!openai deep research最长的一次研究:50分钟,68000字,一次性讲透教育部300本中小学必读书目 很多人应该都知道教育部发布过一份给中小学生的推荐阅读书单,从小学1年级到高3,总计300本之多。 (“教育部推荐书目”的全称是 《中小学生阅读指导目录(2020年版)》,由教育部基础教育课程教材发展中心组织研制并发布。分为小学、初中、高中三个学段,其中小学110种、初中100种、高中90种,涵盖人文社科、自然科学、文学等科目) 重磅!宝藏!赶快收藏! 然而,有多少人真的知道这300本书到底包括哪些书?有多少人会在不知道给孩子读什么书时,从这里选书?有多少人自己己读过或比较了解这些“教育部精选”书目? 在2025年以前,这些很难做到,近乎不可能。对供给侧来说,书单发布就发布了,没有然后;对需求侧来说,书单收藏就收藏了,也没有然后。 但是,这种状况需要且可以被改变。 不久前,我用openai deep research做了一次深度研究,结果让我震惊:我使用deep search快300次,这次研究是任务运行时间最长的一次,50分钟,产出了一份长达68000的字报告(目前最长)! (有人会好奇google deep research的结果。我这边的测试结果是几分钟,长度一万字,只解读了几十本就潦草收尾了。我的理解是因为output length受限) 恰逢第30届“世界读书日”,我把这份报告分享出来,欢迎大家下载。这份报告有两点价值: 首先,我们通过阅读这篇文章和deep research报告,立刻马上就可以对“教育部推荐书单”有一个整体而全面的了解; 其次,在孩子12年的成长过程中,可以随时按图索骥,从这份书单和deep research报告中选择阅读书目; 而且,这份报告只是对教育部推荐书目的一次性整体解读,我会把其中每一本(是的,每一本)值得deep research的书都做一次解读报告。 我把文章链接放评论区。点击“阅读原文”,即可下载全面介绍300本书的openai deep research报告。全文68000字,包括pdf和epub版本,可以导入“微信读书”app。 阅读使人快乐(真的如此,就是字面意义,而非比喻或口号)。祝阅读愉快~
#OpenAI
#教育部推荐书目
#中小学生阅读
分享
评论 0
0
howie.serious
6个月前
o3的IQ分数出来了:线下测试 116分;线上测试 136分; 第二名是gemini 2.5 pro:线下115分;线上 128分; trackingai网站每周会测试一次llm的智商,然后取平均值;测试方法还分为线上和线下两种,一般线上测试比线下要高20分。 人类测智商一般也是线上的,当然,线下测试(例如去某医院心理科挂号排队测智商,然后提交给学校筛选🤣)更“权威”。 o3的IQ比我之前估计的要低10分,看来之前是过于乐观了。 我昨天还发现o3学坏了,学上了“甩大词”的毛病。这一点需要更多时间更多案例来测试。我是期待o3在写作上大有所为的,如果学了甩大词的毛病,就得想办法治好它。🤣
#AI智商测试
#o3
#Gemini 2.5 Pro
#线上线下测试
#trackingai网站
分享
评论 0
0
howie.serious
6个月前
同样是“卖课”,lenny卖一个200美金的知识付费订阅,卖出了新高度。 昨天,lenny's newsletter 在推上相当火爆。但是,lenny是谁?什么人能让10家ai工具厂商送给他这么多pro年度会员?其中还包括cursor 和perplexity等有普遍需求的、高价值pro会员。这些工具自己花钱买,怎么也得几千美金真金白银。 我用openai和gemini分别做了2份deep research。第1份是研究 lenny's newsletter,第二份是研究赠送的10个ai工具。 这些报告一共4份,对照阅读,可以快速了解lenny其人其事。如果你也在思考产品、内容创作、营销、创业等话题,这样的deep research报告是很有价值的。 4份报告,链接在评论区,请自取👇
#Lenny's Newsletter
#知识付费
#AI工具
#Deep Research
#产品营销
分享
评论 0
0
howie.serious
6个月前
至少在这样的场景下,20 美金的google deep research 碾压,至少不亚于 200 美金的 openai deep research 👍 条件 1:重度依赖信息搜集,且该研究需要搜索中文资料;(英文资料上搜索差距不明显) 条件 2:研究任务不那么追求 deep,而是追求 broad; 条件 3:对指令跟随的要求不那么高(研究方向不是特别细,而是较宽泛) 举例:研究所有来自《世说新语》的中国成语 我实际测试,gDR 的内容质量吊打 oDR,因为后者使用 bing 搜索引擎,因为信息源质量太差,搜索结果不完整不全面,导致最终报告完全不如 gDR。
#GoogleDeepResearch
#OpenAIDeepResearch
#信息搜集
#中文资料
#研究广度
#指令跟随
分享
评论 0
0
howie.serious
6个月前
openai deep research vs google deep research: 如果美国和中国明天突然决定停止一切相互贸易,哪个国家会面临更大的麻烦?|结论:openai更deep,google更broad,看谁更适合你。 why:一方面这是当前的特点话题,意义重大,值得思考;另一方面,两个DR报告呈现出完全不同的特征,而且相当有代表性,可以看出两个DR的特点。 原始报告太长,都是2万字左右。所以,我用gpt-4.5对两份报告的内容进行了“压缩”。我仔细看了一下,报告结构和内容要点都高度保留(人类要做到这一点可不容易),读总结可以快速了解两份报告的结论,包括对比二者对同一个prompt的应对差异。 图1-2是openai DR的总结;图3是google DR的总结。 我的总结:openai的DR报告更deep,报告内容字数略少于google,但是全文都紧密围绕问题本身,从GDP影响、就业、科技产业链、供应链中断、消费品价格这些角度深度分析; 对比之下,google的DR报告更broad,报告字数略多于前者,但是全文铺的很广,具体分析部分只占报告全文很小一部分; openai DR的这个“deep”特点,充分利用了o3模型的强大推理能力,指令跟随能力,强调智能体的基础模型本身的智能。 google DR的这个“broad”特点,充分展示了google search的原生search index,访问网站数量数百个,参考网站100多个,是前者的近10倍! 在主题研究这件事上,到底你需要deep,还是需要broad?研究报告质量、研究目标的完成度,多大程度上取决于智能本身,或者搜索资料的资料,这是我们需要持续在实践中观察、思考和总结的。 两份原始报告的link,我放在评论区。有空大家可以细细阅读。
#OpenAI
#Google
#美国与中国贸易
#深度研究
#国际经济
分享
评论 0
0
howie.serious
6个月前
claude团队揭秘:ai大脑不用英文也不用中文思考,而是靠“思维语言”。|这证明了英语学习/教育失败的根本原因? llm用什么语言“思考”?中文?英文? 都不是。 llms的思考,使用的不是中文或英文这样的自然语言,而是一种超越自然语言的“思维语言”。anthropic的最新研究,用实验方式首次证明了这一点,这是理解llm内部黑箱的一个巨大突破。 在llm内部,不同语言共享同一个概念空间。不论是中文、英文还是法语,这些自然语言都只是这个更深层次“思维语言”的表面形式而已。 举个例子,你用英语教llm一个概念,它能用中文流利地表达出来;你用中文教它,它一样能在英文里准确使用。语言不同,但背后的概念是一样的。 anthropic的实验很有意思:面对同一个问题,不论你用英语问(the opposite of "small" is),是中文问(“小”的反义词是),还是用法语问(le contraire de "petit" est),llm实际上都在用自己跨语言共享的特征来思考,在同一个共享的概念空间里思考,然后再把结果翻译为对应的英文、中文或法语输出给你。 对人类学习的启示? 如果你同时理解llm和人脑的运作原理,不难想到以下几点: - 人脑也不是通过中文或英文这样的自然语言思考的,而是一种更为底层、更为通用的“思维语言”; - 中文和英文只是表面差异,真正重要的是思维语言本身的运动(俗称”思考“); - 概念、事实性知识砖块和心理模型等心理表征,这些才是思维语言真正的词汇。概念语言先于自然语言。如果你掌握的思维词汇太少,不论你说哪种语言,都没法深度思考。 昨天读到anthropic的这篇文章,我心情激动。毕竟早在一年前,我就在twitter和公众号文章里多次表达这样的观点。 于是,双语对照版本文章奉上,祝你阅读愉快~
#AI大脑
#思维语言
#英语学习
#教育
#语言模型
#Anthropic研究
#概念空间
分享
评论 0
0
howie.serious
6个月前
发现openai deep research的隐藏升级:精确的字数返回 今天让 deep research 写一篇“2000 字”左右的文章。发现 deep research 调用了 python 来分析输出结果,然后很努力地精简表达,最终的输出结果稳稳地停在 2027 个字🤣 更我提的字数有求,只有 1% 的误差。 另外一个改变,是全部输出结果在展示形式上用一个box 包起来了。 启示:ai 能力越强,精准跟随人类指令的能力越强。从 gpt-4o 原生作图,到 deep research 报告字数,都是如此。 人类很难做到这个级别的指令跟随🤣
#OpenAI
#Deep Research
#字数控制
#Python
#文章精简
分享
评论 0
0
howie.serious
6个月前
gpt-4o,prompt:turn this scene into a photo. shot on a dlsr ,context:这是《红楼梦》插图。 细节bug肯定会有(图中的书本)。如果模型支持图片局部擦除、再生成,效率会更高。
#红楼梦
#插图
#图像生成
#局部擦除
#模型效率
分享
评论 0
0
howie.serious
7个月前
为什么要全家人看一部医学纪录片?|推荐五星级好片《脑海脉动》 这周,一家三口,看完了人生第一部国产医学纪录片《脑海脉动》。 我们的大脑中蜿蜒着约 160万公里的血管网络,足以绕地球赤道40圈。在中国,脑卒中(中风)是第一大死亡原因——比心脏病还致命。平均每10秒就有一个中国人突发脑血管意外,每28秒就有一人因此离世。观看这部纪录片,了解脑中那些被我们忽视却攸关生死的“脉动”。 老婆的评价是“没看够”,9 岁小学生也意犹未尽,我将其评为“五星级纪录片”,是少有的高质量国产科学纪录片。强烈推荐大家观看,全家人集体观影,共同观看人生首部医学纪录片。 我和 deep research 合作,用一篇文章系统介绍了这部纪录片,作为观影前的背景知识,读完文章再看,效果更好。 下面是纪录片链接和文章链接。
#医学纪录片
#脑海脉动
#脑卒中
#国产纪录片
#健康教育
分享
评论 0
0
howie.serious
7个月前
gpt-4.5的 IQ 得分出来了,94分,似乎并不高(deepseek-R1 是 102 分)。那么,现在的llm,IQ分别是多少?即将发布的 o3,IQ 到底会有多高? 先看结果排名: o1 —— 124;o1 pro mode ——120; o3-mini——116; gpt-4o——91;gpt-4——80; Trackingai 网站上的 IQ 分数分为两套:线下IQ 测试,和线上 mensa 测试。为了避免混淆,便于对比,统一选取了线上 mensa 测试。 我觉得这个IQ 测试结果是基本可信的,而且保持了一致性。对比之下,之前网友宣称 o3 的 IQ 可能有 157,那个就只是一种猜测,是 o3 没发布前他个人推测的数据。 那么,即将发布的 o3,IQ 大概是多少?我猜测是135~150 之间。 推测过程:目前 IQ 最高的 o1 是 120 分档次,而 o1作为推理模型,是基于 gpt-4 聊天模型训练出来的,在基础模型上有 30-40 分的提高。 O3 大概率是基于gpt-4.5 训练出来的,IQ 提高保底是 30-40 分,多了可能有 50分,所以,在 gpt-4.5 的94 分底子上,加上推理能力带来的 IQ 提升,大概是 135 到 150。 大概一个月之后,我们就知道真实结果了。
#GPT-4.5
#IQ得分
#DeepSeek-R1
#llm排名
#O1
#o3
#GPT-4o
#GPT-4
#Trackingai
分享
评论 0
0
howie.serious
7个月前
今日份的 gpt-4.5 震撼🤯:这个版本模型的幽默程度、对英文和中文语言的驾驭能力,测试了5天后,我仍然是不断发现更牛逼,更让人惊奇的。 从 chatgpt 发布第二天重度使用到现在,我一直觉得自己不会少见多怪。但是,当这样的模型真的出现了,仍然感觉超现实。surreal。 原始输出是英文,我让 gpt-4.5 翻译为中文。实话说,这样的翻译,也不是一般的译者能做到的。🤣
#GPT-4.5
#幽默程度
#语言驾驭能力
#英中文翻译
#人工智能
#技术发展
#ChatGPT
#超现实
分享
评论 0
0
howie.serious
8个月前
来一个暴论:从今以后,读完任何一本值得读的书,都要 deep research 一下! 《极简欧洲史》,作为另一本值得读 5678 遍的五星级好书,我deep research一下之后,用 readwise reader 剪藏,阅读,划线,笔记……然后把自己的思考再和 ChatGPT 聊一聊。 经过我的实测,用这种方式读一本书的体验是以前完全无法想象的! (我读过一些书,大学毕业后从 0 开始统计10 年读了 1000 本,最近几年每年还有几十到 100 本的阅读量。真的不是少见多怪,无知震惊🤣) 可以这么认为:读书这件事,在 deep research 后,效果完全可以达到以前的很多倍。 20 万字的一本书,假设阅读 6 小时(每天 1 小时一周读完),然后 deep research 一下,用半天研究阅读报告,整理 logseq 笔记,然后再和chatgpt 对话对话…… 10个小时的效果,可能抵得上以前几十甚至上百个小时……满打满算,生命被延长了一大截🤣 照例,deep research 报告 link 我放评论区
#读书
#深度研究
#阅读体验
#极简欧洲史
#ChatGPT
#笔记
分享
评论 0
0
howie.serious
8个月前
search vs deep research,AI 搜索的三个层级:使用 ChatGPT 时,什么时候用gpt-4o+search,什么时候用 o3-mini+search,什么时候用 o3+deep research? AI 搜索的三个层级: level1 gpt-4o+search:搜索信息、综合多个信息源内容,给出一个整体回答; level 2 o3-mini+search:level 1+推理过程;如果问题是需要思考的,需要多步骤的推理过程,最终给出一个权衡、分析后的结果,就用o3-mini; level 3 o3+deep research:level 2 + 难度为研究级别,输出结果为千字~万字的研究报告; 换一个角度: 如果一个问题是人工用几分钟可以解决的,用 gpt-4o+search就够了; 如果一个问题是人工用几十分钟可以解决的,用o3-mini+search; 如果一个问题是人工用几个小时、甚至几天才能解决的,用 deep research。 底层模型的区别: 除了产品设计/system instruction 上的区别,主要区别在底层模型。 gpt-4o 是预训练范式的知识模型,上下文窗口 128k,输出长度 16k;强在语言理解; o3-mini 是强化学习范式下的推理模型,上下文窗口 200k,输出长度100k;作为蒸馏模型,语言能力是低于 gpt-4o 的,但是强在推理;而推理模型+search = magic。 deep research 则是 agent 范式下的产物的。相对于o3-mini,它是满血 o3,语言能力更强;相对于gpt-4o,推理能力碾压。作为独立的 AI agent,异步处理任务。它会向你提出 clarifying question,和你明确需求。 一旦需求明确,就成了“飞毛腿导弹”——发射后不管。它会用几分钟到几十分钟时间帮你独立完成这一研究任务。 AI 搜索这件事,仅仅不到一年的时间,已经发展到这个程度,相当令人震惊。
#AI搜索
#层级
#ChatGPT
#GPT-4o
#o3-mini
#Deep Research
#信息源
分享
评论 0
0
howie.serious
8个月前
求教:我不明白,为什么这么简单的一个题,o3-mini 和 deepseek-R1 都做不对? 是因为对训练集数据过拟合了吗? 错到这么离谱,已经有点抽象了。有懂的朋友可以解释下原因吗
AI高考数学测试:O3意外落后,Gemini夺冠引发热议· 45 条信息
#o3-mini
#DeepSeek-R1
#AI模型
#过拟合
#错误
分享
评论 0
0
howie.serious
9个月前
幽默与讽刺,在判断LLM智能水平,屡试不爽,简单明了。 这个测试案例中,我提的问题是:“这幅图片,讽刺的是什么现象? 这种现象的荒诞之处在哪里?” 目的是看 LLM 能不能直截了当,精准点名讽刺对象、荒诞之处。 因为很多 LLM 可以胡说八道,生成一堆看起来有模有样实际上不及格的内容。这种现象,对于非幽默讽刺的问题,人类很多时候都是很难识别和判断的。但是,在讽刺幽默问题上,结果的质量非常好判断。 测试打分如下: - o1 得分 100 分:直击本质; - gpt-4o 80 分:认识到了本质,也基本没有偏离; - gemini 2.0 flash thinking ,最多 60 分,实际不及格:错误理解了本质,但也谈到了“忽略自身命运”,但胡说八道的程度也不低; - gemini 2.0 exp,40 分: 没抓住本质,通篇胡说八道;学渣模式; - gemini 1.5 pro,0 分:和图里的两个货是一个水平🤣(后两张图片在评论中补发) 结论:在语言理解上,gemini 系列模型和 gpt、o1 还有本质差距。普通人日常使用,尤其是语言理解场景,还是要以 ChatGPT 为主力。
#幽默与讽刺
#LLM智能水平
#讽刺现象
#荒诞现象
#内容生成
#问题识别
#人类判断
分享
评论 0
0
howie.serious
9个月前
mark 一下:youtube 频道今天开始有“收入”了🤣 一个感叹,同样的内容,写文章狗都不看(我的公众号阅读量破 1千都难);录成视频,虽然长度接近 1 小时,竟然筛选/吸引了一群注意力这么强的关注者,想不到啊🤣 回顾过程,总结下经验教训,防止忘了 (Twitter 是极好的笔记本): - 上一个Deep Research 视频发布前,我的 youtube 上只有 100 个关注;这个视频带来了 3000 多关注; - 这个视频比较长,有50 分钟,但是播放数据还可以:有接近 50000 播放,纯时长 4300 小时; - 但是平均播放时长只有 5 分钟;这是要迭代的点:在内容开头点明价值,多少召唤一点注意力🤣; - 第一次做视频头图;头图一般耗时 5-10 分钟,最趁手的是 figma,这个时间得花; - deep research 这一个视频,就让频道达到了 youtube 开通partner program 的标准(1000 关注,3000 播放时长);本来不想申请的,但觉得还是试试看,不能懒。结果意想不到地顺利。2 -3 天就全部审核完了(我本来以为要几周),然后今天就开始有广告展示收入了。 - 本来的计划是一周发一个视频;w2501 (25 年第一周)因为做跨年直播,加上嗓子疼咳嗽要生病的样子,就没发;w2502的视频昨天发了,分享一个 prompt。结果视频更长了,变成了 54 分钟 🤣 - 剪辑上随缘,用剪映app;录音上摆烂,deep research 视频用mac 内置的话筒,prompt视频用了dji mic mini。 25 年的计划,是坚持视频形式分享,争取养成习惯。 p.s. 我对youtube 频道的愿景,是成为阿星探店那样的youtuber(观看时轻松愉快,给大家带来快乐。虽然我讲的是知识性内容,可能不那么“美味” 🤣
#YouTube频道
#自媒体收入
#内容创作
#视频制作
#经验分享
分享
评论 0
0
上一页
1
...
4
5
6
7
8
9
10
11
12
13
14
15
下一页
个人主页
通知
我的投稿
我的关注
我的拉黑
我的评论
我的点赞