时政
财经
科技
虚拟货币
其他
登录
howie.serious
关注
统计数据
216
文章
0
粉丝
0
获赞
575
阅读
热门文章
1
TechFlow 深潮 发布的文章:近期教育领域的变化引发了广泛讨论,我认为教育改革应该更加注重学生的个性化发展和创新能...
145
32
howie.serious
4个月前
至少在这样的场景下,20 美金的google deep research 碾压,至少不亚于 200 美金的 openai deep research 👍 条件 1:重度依赖信息搜集,且该研究需要搜索中文资料;(英文资料上搜索差距不明显) 条件 2:研究任务不那么追求 deep,而是追求 broad; 条件 3:对指令跟随的要求不那么高(研究方向不是特别细,而是较宽泛) 举例:研究所有来自《世说新语》的中国成语 我实际测试,gDR 的内容质量吊打 oDR,因为后者使用 bing 搜索引擎,因为信息源质量太差,搜索结果不完整不全面,导致最终报告完全不如 gDR。
#GoogleDeepResearch
#OpenAIDeepResearch
#信息搜集
#中文资料
#研究广度
#指令跟随
分享
评论 0
0
howie.serious
4个月前
openai deep research vs google deep research: 如果美国和中国明天突然决定停止一切相互贸易,哪个国家会面临更大的麻烦?|结论:openai更deep,google更broad,看谁更适合你。 why:一方面这是当前的特点话题,意义重大,值得思考;另一方面,两个DR报告呈现出完全不同的特征,而且相当有代表性,可以看出两个DR的特点。 原始报告太长,都是2万字左右。所以,我用gpt-4.5对两份报告的内容进行了“压缩”。我仔细看了一下,报告结构和内容要点都高度保留(人类要做到这一点可不容易),读总结可以快速了解两份报告的结论,包括对比二者对同一个prompt的应对差异。 图1-2是openai DR的总结;图3是google DR的总结。 我的总结:openai的DR报告更deep,报告内容字数略少于google,但是全文都紧密围绕问题本身,从GDP影响、就业、科技产业链、供应链中断、消费品价格这些角度深度分析; 对比之下,google的DR报告更broad,报告字数略多于前者,但是全文铺的很广,具体分析部分只占报告全文很小一部分; openai DR的这个“deep”特点,充分利用了o3模型的强大推理能力,指令跟随能力,强调智能体的基础模型本身的智能。 google DR的这个“broad”特点,充分展示了google search的原生search index,访问网站数量数百个,参考网站100多个,是前者的近10倍! 在主题研究这件事上,到底你需要deep,还是需要broad?研究报告质量、研究目标的完成度,多大程度上取决于智能本身,或者搜索资料的资料,这是我们需要持续在实践中观察、思考和总结的。 两份原始报告的link,我放在评论区。有空大家可以细细阅读。
#OpenAI
#Google
#美国与中国贸易
#深度研究
#国际经济
分享
评论 0
0
howie.serious
5个月前
claude团队揭秘:ai大脑不用英文也不用中文思考,而是靠“思维语言”。|这证明了英语学习/教育失败的根本原因? llm用什么语言“思考”?中文?英文? 都不是。 llms的思考,使用的不是中文或英文这样的自然语言,而是一种超越自然语言的“思维语言”。anthropic的最新研究,用实验方式首次证明了这一点,这是理解llm内部黑箱的一个巨大突破。 在llm内部,不同语言共享同一个概念空间。不论是中文、英文还是法语,这些自然语言都只是这个更深层次“思维语言”的表面形式而已。 举个例子,你用英语教llm一个概念,它能用中文流利地表达出来;你用中文教它,它一样能在英文里准确使用。语言不同,但背后的概念是一样的。 anthropic的实验很有意思:面对同一个问题,不论你用英语问(the opposite of "small" is),是中文问(“小”的反义词是),还是用法语问(le contraire de "petit" est),llm实际上都在用自己跨语言共享的特征来思考,在同一个共享的概念空间里思考,然后再把结果翻译为对应的英文、中文或法语输出给你。 对人类学习的启示? 如果你同时理解llm和人脑的运作原理,不难想到以下几点: - 人脑也不是通过中文或英文这样的自然语言思考的,而是一种更为底层、更为通用的“思维语言”; - 中文和英文只是表面差异,真正重要的是思维语言本身的运动(俗称”思考“); - 概念、事实性知识砖块和心理模型等心理表征,这些才是思维语言真正的词汇。概念语言先于自然语言。如果你掌握的思维词汇太少,不论你说哪种语言,都没法深度思考。 昨天读到anthropic的这篇文章,我心情激动。毕竟早在一年前,我就在twitter和公众号文章里多次表达这样的观点。 于是,双语对照版本文章奉上,祝你阅读愉快~
#AI大脑
#思维语言
#英语学习
#教育
#语言模型
#Anthropic研究
#概念空间
分享
评论 0
0
howie.serious
5个月前
发现openai deep research的隐藏升级:精确的字数返回 今天让 deep research 写一篇“2000 字”左右的文章。发现 deep research 调用了 python 来分析输出结果,然后很努力地精简表达,最终的输出结果稳稳地停在 2027 个字🤣 更我提的字数有求,只有 1% 的误差。 另外一个改变,是全部输出结果在展示形式上用一个box 包起来了。 启示:ai 能力越强,精准跟随人类指令的能力越强。从 gpt-4o 原生作图,到 deep research 报告字数,都是如此。 人类很难做到这个级别的指令跟随🤣
#OpenAI
#Deep Research
#字数控制
#Python
#文章精简
分享
评论 0
0
howie.serious
5个月前
gpt-4o,prompt:turn this scene into a photo. shot on a dlsr ,context:这是《红楼梦》插图。 细节bug肯定会有(图中的书本)。如果模型支持图片局部擦除、再生成,效率会更高。
#红楼梦
#插图
#图像生成
#局部擦除
#模型效率
分享
评论 0
0
howie.serious
5个月前
为什么要全家人看一部医学纪录片?|推荐五星级好片《脑海脉动》 这周,一家三口,看完了人生第一部国产医学纪录片《脑海脉动》。 我们的大脑中蜿蜒着约 160万公里的血管网络,足以绕地球赤道40圈。在中国,脑卒中(中风)是第一大死亡原因——比心脏病还致命。平均每10秒就有一个中国人突发脑血管意外,每28秒就有一人因此离世。观看这部纪录片,了解脑中那些被我们忽视却攸关生死的“脉动”。 老婆的评价是“没看够”,9 岁小学生也意犹未尽,我将其评为“五星级纪录片”,是少有的高质量国产科学纪录片。强烈推荐大家观看,全家人集体观影,共同观看人生首部医学纪录片。 我和 deep research 合作,用一篇文章系统介绍了这部纪录片,作为观影前的背景知识,读完文章再看,效果更好。 下面是纪录片链接和文章链接。
#医学纪录片
#脑海脉动
#脑卒中
#国产纪录片
#健康教育
分享
评论 0
0
howie.serious
5个月前
gpt-4.5的 IQ 得分出来了,94分,似乎并不高(deepseek-R1 是 102 分)。那么,现在的llm,IQ分别是多少?即将发布的 o3,IQ 到底会有多高? 先看结果排名: o1 —— 124;o1 pro mode ——120; o3-mini——116; gpt-4o——91;gpt-4——80; Trackingai 网站上的 IQ 分数分为两套:线下IQ 测试,和线上 mensa 测试。为了避免混淆,便于对比,统一选取了线上 mensa 测试。 我觉得这个IQ 测试结果是基本可信的,而且保持了一致性。对比之下,之前网友宣称 o3 的 IQ 可能有 157,那个就只是一种猜测,是 o3 没发布前他个人推测的数据。 那么,即将发布的 o3,IQ 大概是多少?我猜测是135~150 之间。 推测过程:目前 IQ 最高的 o1 是 120 分档次,而 o1作为推理模型,是基于 gpt-4 聊天模型训练出来的,在基础模型上有 30-40 分的提高。 O3 大概率是基于gpt-4.5 训练出来的,IQ 提高保底是 30-40 分,多了可能有 50分,所以,在 gpt-4.5 的94 分底子上,加上推理能力带来的 IQ 提升,大概是 135 到 150。 大概一个月之后,我们就知道真实结果了。
#GPT-4.5
#IQ得分
#DeepSeek-R1
#llm排名
#O1
#o3
#GPT-4o
#GPT-4
#Trackingai
分享
评论 0
0
howie.serious
5个月前
今日份的 gpt-4.5 震撼🤯:这个版本模型的幽默程度、对英文和中文语言的驾驭能力,测试了5天后,我仍然是不断发现更牛逼,更让人惊奇的。 从 chatgpt 发布第二天重度使用到现在,我一直觉得自己不会少见多怪。但是,当这样的模型真的出现了,仍然感觉超现实。surreal。 原始输出是英文,我让 gpt-4.5 翻译为中文。实话说,这样的翻译,也不是一般的译者能做到的。🤣
#GPT-4.5
#幽默程度
#语言驾驭能力
#英中文翻译
#人工智能
#技术发展
#ChatGPT
#超现实
分享
评论 0
0
howie.serious
6个月前
来一个暴论:从今以后,读完任何一本值得读的书,都要 deep research 一下! 《极简欧洲史》,作为另一本值得读 5678 遍的五星级好书,我deep research一下之后,用 readwise reader 剪藏,阅读,划线,笔记……然后把自己的思考再和 ChatGPT 聊一聊。 经过我的实测,用这种方式读一本书的体验是以前完全无法想象的! (我读过一些书,大学毕业后从 0 开始统计10 年读了 1000 本,最近几年每年还有几十到 100 本的阅读量。真的不是少见多怪,无知震惊🤣) 可以这么认为:读书这件事,在 deep research 后,效果完全可以达到以前的很多倍。 20 万字的一本书,假设阅读 6 小时(每天 1 小时一周读完),然后 deep research 一下,用半天研究阅读报告,整理 logseq 笔记,然后再和chatgpt 对话对话…… 10个小时的效果,可能抵得上以前几十甚至上百个小时……满打满算,生命被延长了一大截🤣 照例,deep research 报告 link 我放评论区
#读书
#深度研究
#阅读体验
#极简欧洲史
#ChatGPT
#笔记
分享
评论 0
0
howie.serious
6个月前
search vs deep research,AI 搜索的三个层级:使用 ChatGPT 时,什么时候用gpt-4o+search,什么时候用 o3-mini+search,什么时候用 o3+deep research? AI 搜索的三个层级: level1 gpt-4o+search:搜索信息、综合多个信息源内容,给出一个整体回答; level 2 o3-mini+search:level 1+推理过程;如果问题是需要思考的,需要多步骤的推理过程,最终给出一个权衡、分析后的结果,就用o3-mini; level 3 o3+deep research:level 2 + 难度为研究级别,输出结果为千字~万字的研究报告; 换一个角度: 如果一个问题是人工用几分钟可以解决的,用 gpt-4o+search就够了; 如果一个问题是人工用几十分钟可以解决的,用o3-mini+search; 如果一个问题是人工用几个小时、甚至几天才能解决的,用 deep research。 底层模型的区别: 除了产品设计/system instruction 上的区别,主要区别在底层模型。 gpt-4o 是预训练范式的知识模型,上下文窗口 128k,输出长度 16k;强在语言理解; o3-mini 是强化学习范式下的推理模型,上下文窗口 200k,输出长度100k;作为蒸馏模型,语言能力是低于 gpt-4o 的,但是强在推理;而推理模型+search = magic。 deep research 则是 agent 范式下的产物的。相对于o3-mini,它是满血 o3,语言能力更强;相对于gpt-4o,推理能力碾压。作为独立的 AI agent,异步处理任务。它会向你提出 clarifying question,和你明确需求。 一旦需求明确,就成了“飞毛腿导弹”——发射后不管。它会用几分钟到几十分钟时间帮你独立完成这一研究任务。 AI 搜索这件事,仅仅不到一年的时间,已经发展到这个程度,相当令人震惊。
#AI搜索
#层级
#ChatGPT
#GPT-4o
#o3-mini
#Deep Research
#信息源
分享
评论 0
0
howie.serious
7个月前
求教:我不明白,为什么这么简单的一个题,o3-mini 和 deepseek-R1 都做不对? 是因为对训练集数据过拟合了吗? 错到这么离谱,已经有点抽象了。有懂的朋友可以解释下原因吗
AI高考数学测试:O3意外落后,Gemini夺冠引发热议· 21 条信息
#o3-mini
#DeepSeek-R1
#AI模型
#过拟合
#错误
分享
评论 0
0
howie.serious
7个月前
幽默与讽刺,在判断LLM智能水平,屡试不爽,简单明了。 这个测试案例中,我提的问题是:“这幅图片,讽刺的是什么现象? 这种现象的荒诞之处在哪里?” 目的是看 LLM 能不能直截了当,精准点名讽刺对象、荒诞之处。 因为很多 LLM 可以胡说八道,生成一堆看起来有模有样实际上不及格的内容。这种现象,对于非幽默讽刺的问题,人类很多时候都是很难识别和判断的。但是,在讽刺幽默问题上,结果的质量非常好判断。 测试打分如下: - o1 得分 100 分:直击本质; - gpt-4o 80 分:认识到了本质,也基本没有偏离; - gemini 2.0 flash thinking ,最多 60 分,实际不及格:错误理解了本质,但也谈到了“忽略自身命运”,但胡说八道的程度也不低; - gemini 2.0 exp,40 分: 没抓住本质,通篇胡说八道;学渣模式; - gemini 1.5 pro,0 分:和图里的两个货是一个水平🤣(后两张图片在评论中补发) 结论:在语言理解上,gemini 系列模型和 gpt、o1 还有本质差距。普通人日常使用,尤其是语言理解场景,还是要以 ChatGPT 为主力。
#幽默与讽刺
#LLM智能水平
#讽刺现象
#荒诞现象
#内容生成
#问题识别
#人类判断
分享
评论 0
0
howie.serious
7个月前
mark 一下:youtube 频道今天开始有“收入”了🤣 一个感叹,同样的内容,写文章狗都不看(我的公众号阅读量破 1千都难);录成视频,虽然长度接近 1 小时,竟然筛选/吸引了一群注意力这么强的关注者,想不到啊🤣 回顾过程,总结下经验教训,防止忘了 (Twitter 是极好的笔记本): - 上一个Deep Research 视频发布前,我的 youtube 上只有 100 个关注;这个视频带来了 3000 多关注; - 这个视频比较长,有50 分钟,但是播放数据还可以:有接近 50000 播放,纯时长 4300 小时; - 但是平均播放时长只有 5 分钟;这是要迭代的点:在内容开头点明价值,多少召唤一点注意力🤣; - 第一次做视频头图;头图一般耗时 5-10 分钟,最趁手的是 figma,这个时间得花; - deep research 这一个视频,就让频道达到了 youtube 开通partner program 的标准(1000 关注,3000 播放时长);本来不想申请的,但觉得还是试试看,不能懒。结果意想不到地顺利。2 -3 天就全部审核完了(我本来以为要几周),然后今天就开始有广告展示收入了。 - 本来的计划是一周发一个视频;w2501 (25 年第一周)因为做跨年直播,加上嗓子疼咳嗽要生病的样子,就没发;w2502的视频昨天发了,分享一个 prompt。结果视频更长了,变成了 54 分钟 🤣 - 剪辑上随缘,用剪映app;录音上摆烂,deep research 视频用mac 内置的话筒,prompt视频用了dji mic mini。 25 年的计划,是坚持视频形式分享,争取养成习惯。 p.s. 我对youtube 频道的愿景,是成为阿星探店那样的youtuber(观看时轻松愉快,给大家带来快乐。虽然我讲的是知识性内容,可能不那么“美味” 🤣
#YouTube频道
#自媒体收入
#内容创作
#视频制作
#经验分享
分享
评论 0
0
howie.serious
7个月前
把人类过去 500年来的全部技术,用一张24 米长、3 米高的巨型图片一次性呈现,会是怎样的体验? 根据多年来博物馆和看展体验,这种项目必须置身其中。虽然也有网站(地址在讨论区),但是在电脑屏幕上看到和站在 3 米高24 米长的画布前看,是完全不同的两回事。 但是,Apple Vision Pro 或VR 设备应该可以创造同等体验。有条件的朋友或许可以体验一下,分享下感受。 我看了下内容,其实也就那样(见图 4)。很多百科全书在形式和内容上都胜过这个项目。但是,关键在于置身其中。 Vision Pro这样的设备,以后还是会普及到人手一台的。因为有这一类项目的存在。
#技术发展
#展览体验
#虚拟现实
#500年科技
分享
评论 0
0
howie.serious
8个月前
o3 发布后,我们需要把 ilya 的这句神预言拿出来重读几遍了:如果你把智能看得比其他人类品质更重要,那你会很难受的。 人类智能,不但没有独特性,现在连稀缺性都没有了。 人类的价值,绝对不在于人有脑子(很多人类的脑子其实不咋用),人们得找一些其他的价值,来体现“人之为人”。
#AI浪潮:重塑就业,风险暗涌?· 94 条信息
分享
评论 0
0
howie.serious
1年前
中文互联网的耻辱柱:“穷人追求多巴胺,富人追求内啡肽” 让我们一次性彻底弄明白“多巴胺”是怎么回事。毕竟,健康的多巴胺回路,才是人生幸福、学霸养成的关键。 === 大部分人都在网上都看到过这个言论:“穷人追求多巴胺,富人追求内啡肽”。抖音和视频号里的追求流量的自媒体这么说,甚至很多知识大 V ,甚至罗胖都在书里面这么说(见图)。 这句话里面只有 14 个字,但是基本上每个字都错了,而且错的离谱。什么是多巴胺?人脑有几条多巴胺回路?成瘾是怎么回事?人在学习和运动时的“快乐”是多巴胺还是内啡肽?这些都是基础的事实性信息,但是网上大 V 基本全说错了。因为都没有基本的知识储备,反而像人体蜈蚣一样无脑传递 5678 手错误信息。 诺大一个中文互联网,竟然让如此重要的概念,犯下如此巨大的事实性错误。但凡有一个人看一眼 wikipedia 的多巴胺词条,都不可能这么离大谱。 什么是多巴胺? 多巴胺是大脑中的一种神经递质,很重要:它在调节情绪、奖励和快感感觉、以及运动功能等方面起着关键作用。因此,多巴胺也被称为“快乐分子”。 这些是人人都知道的。但是,不少人对多巴胺的认识和理解就仅限于此了,他们接下来对多巴胺的解读就纯属幻觉了(哎,人类有啥资格嘲笑 ChatGPT 的幻觉呢)。 多巴胺真的是“万恶之首”吗? 因为多巴胺是大脑成瘾机制的关键物质,所以,有些知识大 V不经大脑就把多巴胺看成万恶之首,然后为了挑起对立,激发读者的情绪反应,进一步发展出“穷人追求多巴胺,富人追求内啡肽”这种既笨且坏的傻x观点,蛊惑了很多无辜的读者,成了追求流量屡试不爽的法宝级言论。 认识多巴胺对人的影响,关键得理解一个概念:多巴胺回路。大脑中有几条多巴胺回路?分别对应人类的哪些活动,哪些现象?这些回路对人的影响分别是什么? 人脑中有多条多巴胺回路,但主要有三条(见图)。 前额叶多巴胺回路(中脑-皮质回路 Mesocortical pathway):从 [[腹侧被盖区]](Ventral tegmental area, VTA)开始,到达[[前额叶皮质]](Prefrontal cortex)。这条路径与认知功能,如决策、注意力、解决问题和社会行为有关。 动物脑多巴胺回路(中脑-边缘系统回路 Mesolimbic pathway):同样起始于腹侧被盖区,但是它连接到边缘系统,包括海马(Hippocampus)、[[杏仁核]](Amygdala)和[[伏隔核]](Nucleus accumbens)。这条路径与奖励感知、动机和情绪有很大关联,有时也被称为“[[奖励回路]]”。 黑质-纹状体路径(Nigrostriatal pathway):这条路径起始于脑干的[[黑质]](Substantia nigra)部分,终止于[[纹状体]](Striatum)。这条路径主要与运动控制相关,[[帕金森病]](Parkinson's disease)就是因为这个区域的多巴胺神经元退化造成的。 前额叶多巴胺回路 vs 动物脑多巴胺回路 简单说,当我们谈论多巴胺时,关键在于认识这两条回路:前额叶多巴胺回路,动物脑多巴胺回路。 人是追求奖赏、逃避惩罚的动物,而奖赏的背后都是多巴胺。但是,不同多巴胺回路所带来的奖赏,性质是完全不同的,我称之为“优质多巴胺”和“劣质多巴胺”。多巴胺本身并非罪恶之源,但是,不同性质的多巴胺,让有的人直上天堂,有的人直下地狱。 优质多巴胺来自前额叶参与,主要来自运动、阅读、学习、思考和解决问题等活动,这种活动通常更“慢”,给人带来健康向上的愉悦和快乐感受。 劣质多巴胺则不需要主动和深入的人类认知活动参与,直接刺激动物脑即可,主要来自短视频、网文、疯狂购物、网络上无脑谩骂等活动。在短视频的刺激下,VTA与杏仁核等边缘系统组织形成了“动物脑多巴胺回路”,疯狂供应这种劣质多巴胺。 顺嘴说一句,关于内啡肽,那玩意的意思是“体内吗啡”,在极端运动情况下才会分泌,让人感觉不到疼痛。跟通常的人类活动无关,完全是被人拿来跟“坏分子”多巴胺强行建立对立用的。 来自多巴胺的启发 麻雀不是坏鸟(不需要赶尽杀绝),多巴胺也不是“坏分子” 。你的快乐来自多巴胺,你的成瘾也还是因为多巴胺。 所以,关键只有一点:让自己和孩子获取持续稳定的好的多巴胺来源。通过读书、运动、人际交往互动、爱等来源获取优质多巴胺,减少对抖音、短屎频、游戏、爽文、心灵鸡汤、知识鸡汤等劣质多巴胺来源的依赖。 长文版本👇: [抖音大脑,与劣质多巴胺的狂飙时代]()
#阶层固化:求变之路,殊途同归· 407 条信息
#多巴胺
#内啡肽
#优质多巴胺
#劣质多巴胺
#中文互联网
分享
评论 0
0
上一页
1
2
3
4
5
6
7
8
9
个人主页
通知
我的投稿
我的关注
我的拉黑
我的评论
我的点赞