时政
财经
科技
登录
howie.serious
关注
统计数据
107
文章
0
粉丝
0
获赞
64
阅读
热门文章
1
TechFlow 深潮 发布的文章:近期教育领域的变化引发了广泛讨论,我认为教育改革应该更加注重学生的个性化发展和创新能...
145
32
howie.serious
1个月前
用纸笔做数独还挺考验人的。 app 里更容易,可以做更高难题的题目。 纸笔的话,笔记就很关键,做出两星的题目都很有成就感🤣
#数独
#纸笔
#App
#难题
#成就感
分享
评论 0
0
howie.serious
1个月前
这就是哈佛毕业演讲的水平? 一言难尽。 推荐花几分钟看一下,有很好的祛魅效果。甚至你会直观看到为什么特朗普会第一个搞哈佛大学🤣 (演讲内容除了白左意识形态,其他空无一物。 (另外,这个演讲者,似乎可以说是“协和 4+4” 的另一个版本?这种水平,除了当官,别的工作都不合适啊
#哈佛大学
#演讲
#特朗普
#白左意识形态
#协和4+4
分享
评论 0
0
howie.serious
1个月前
作为一个免费开源 llm,deepseek-R1 的 benchmark 分数确实吓人。
#DeepSeek-R1
#Benchmark
#开源
#免费
#大型语言模型
#评分
分享
评论 0
0
howie.serious
1个月前
deepseek 真的是 llm 顶流待遇。 没有哪家模型的版本号更新(例如 gpt-4o-1104)会激起如此大的声浪 🌊
深度学习模型升级引发AI能力大跃进,行业迎新变革· 20 条信息
#DeepSeek
#LLM
#GPT
#模型更新
#顶流待遇
分享
评论 0
0
howie.serious
1个月前
真是 vibe coding 的最绝翻译🤣
#Vibe Coding
#翻译
#网络流行语
#编程
#幽默
分享
评论 0
0
howie.serious
1个月前
知乎上流行的这种按钮/开关/药丸类“道德难题”,是互联网低智化的一种表现,其本质就是“流量密码”(少数人玩弄,多数人被玩弄)。 这是一种人为设计的两难困境,意义不大的那种:不过用一种虚假的、永远不可能出现的假设来揭示、加剧了人们的意识形态分裂。 看起来激发思考,是“思想实验”,但实际认知门槛极低,表达成本极低(即使没脑子也可以做出一个“选择”),所以每个人都参与进来,流量极大; 认知门槛低,但情绪激发很高,操纵、愚弄参与者的情绪。 这种活动的流行,是互联网低智化的一种表现。
#道德难题
#低智化
#流量密码
#意识形态分裂
#思想实验
分享
评论 0
0
howie.serious
1个月前
红杉中国推出了ai agent的基准测试平台 xbench。目前o3在4项测试中全部排名第1,断档式领先。 对于这种新事物,我就不装“万事通”了:大家都是第一次听说,我刚在logseq里面新建了名为“xbench”的笔记,自己转述信息的质量不高,意义不大。 请看来自o3的详细且全面介绍🤣
#红杉中国
#AI Agent
#XBench
#o3
#基准测试
分享
评论 0
0
howie.serious
1个月前
不论你今天状态是 100% 还是 5%,雷打不动,横竖发一篇文章,这就是 discipline 🤣 (以日更实验为例。其他同理。 我家小学生,不管刮风下雨,横竖每天自己做两道 c ➕➕题目)
#坚持
#日更
#自律
#编程学习
#C++
#日常
#时间管理
分享
评论 0
0
howie.serious
1个月前
openai 确实上周跳票了:本来应该推出 o3-pro 的。
#OpenAI
#跳票
#O3-Pro
#产品发布
#人工智能
分享
评论 0
0
howie.serious
1个月前
过去 100 天里,我完成了一个实验/游戏:公众号日更 100 天。 这个过程的顺带结果,是小破号订阅翻了一倍,增加 2 万关注。(同期推特关注要少一些) (另一个习惯是每天写点东西,无痛,自然而然。结果发现,一个人的思考其实太多了,日更都囤了大量主题没顾上发。可见只输入只思考真是终身学习者子死敌!) 这个实验的顺带后果是没顾上刚起步的 youtube(一个月内从零新增了 10000 关注)。起步之后就撂荒了 100 天🤣 但是,我是把知识视频(半小时以上,最终向 kaparthy 的 3 小时视频看齐)作为严肃目标的。现在,准备重启知识视频。重启的定义,是每周更新至少一个长知识视频(半小时以上,最好一小时)。 这算一个新实验/游戏。🎮 此贴为 flag。🚩
#公众号日更
#订阅增加
#终身学习
#个人习惯
#社交媒体增长
分享
评论 0
0
howie.serious
1个月前
#暴论 :别折腾各种不明觉厉的prompt了。 氪一点金,使用最高IQ的模型(例如,不限量的o3+gpt-4.5搭配)比折腾prompt 有效多了。 一个建议:拿200美金测试一下。开一个月pro,以上1000条o3,500条gpt-4.5,保证你下个月再也不想在prompt上浪费时间了。 模型即产品。用最好的模型,就是在ai时代对自己最大的尊重。
#暴论
#Prompt
#模型
#AI时代
#建议
#GPT-4.5
#IQ
#产品
#测试
#浪费时间
#最好的模型
分享
评论 0
0
howie.serious
1个月前
如果你觉得这个 ai 视频转场很自然, 那就说明原来那张照片确实有点怪, 因为那说明 ai 的数据分布里,那张照片也被如此分类。
#AI
#视频转场
#数据分布
#图片分类
分享
评论 0
0
howie.serious
1个月前
openai 和 jony ive 合作的 ai 硬件,“ai 版 iphone”,或许大概可能这是类似这样的设备? 不一定是挂脖子。和“her”里面的 Samantha 设备应该差不多。
#OpenAI
#JonyIve
#AI硬件
#Her电影
#Samantha设备
#创新科技
分享
评论 0
0
howie.serious
1个月前
爱死机第4季看完了,确实差,不及格。怀念第一季的zima blue。 === 作为网飞“高概念”娱乐电影/内容(high concept)的典型,爱死机竟然装都不装了。 (所谓high concept,是好莱坞电影工业的营销词汇,追求一眼吊的牛逼概念,认知成本低,逼格高。想更具体理解的话,就是知识付费领域XX的那种风格) 烂到连故事都不愿意讲了,直接就是高概念大标题+PPT式感官动画交差。 当年第一季是极好的,尤其是zima blue那一集,到现在还记得当时的震撼。属于写到大脑神经网络参数中的那种震撼。
#爱死机
#Netflix
#高概念娱乐
#影视评论
#动画
#故事性
分享
评论 0
0
howie.serious
1个月前
那些道貌岸然的畜生家长,绝非儿童抑郁症的受害者,而是 100% 的施害者,是杀人凶手。 这三张图是朋友发给我的。我仔细读了,结论就一个:这两家长是畜生。 孩子遗书里写的清清楚楚,是父母逼死了她,是因为考试。 父母却傻逼嘻嘻,用“阳光型/微笑型抑郁症”(不存在这种东西,就是父母不 care,不关心) 来污名化孩子,洗脱自己。 具体来说,这件事里面,孩子是受害者,家长是施害者(绝对不配装可怜,装坚强,装个人); 普遍来说,这件事绝非个例。遇到这种只看考试,不关心孩子本人的家长,孩子算倒了八辈子霉了!
#家庭教育
#儿童抑郁症
#父母责任
#心理健康
#暴力教育
#社会问题
分享
评论 0
0
howie.serious
2个月前
不论什么奇谈怪论,o3一下,立刻现出原形。 o3 咒语:critical-think this。 另一个咒语:fact-check this。
#奇谈怪论
#o3
#批判性思维
#事实核查
#咒语
分享
评论 0
0
howie.serious
2个月前
绝对干货!openai deep research最长的一次研究:50分钟,68000字,一次性讲透教育部300本中小学必读书目 很多人应该都知道教育部发布过一份给中小学生的推荐阅读书单,从小学1年级到高3,总计300本之多。 (“教育部推荐书目”的全称是 《中小学生阅读指导目录(2020年版)》,由教育部基础教育课程教材发展中心组织研制并发布。分为小学、初中、高中三个学段,其中小学110种、初中100种、高中90种,涵盖人文社科、自然科学、文学等科目) 重磅!宝藏!赶快收藏! 然而,有多少人真的知道这300本书到底包括哪些书?有多少人会在不知道给孩子读什么书时,从这里选书?有多少人自己己读过或比较了解这些“教育部精选”书目? 在2025年以前,这些很难做到,近乎不可能。对供给侧来说,书单发布就发布了,没有然后;对需求侧来说,书单收藏就收藏了,也没有然后。 但是,这种状况需要且可以被改变。 不久前,我用openai deep research做了一次深度研究,结果让我震惊:我使用deep search快300次,这次研究是任务运行时间最长的一次,50分钟,产出了一份长达68000的字报告(目前最长)! (有人会好奇google deep research的结果。我这边的测试结果是几分钟,长度一万字,只解读了几十本就潦草收尾了。我的理解是因为output length受限) 恰逢第30届“世界读书日”,我把这份报告分享出来,欢迎大家下载。这份报告有两点价值: 首先,我们通过阅读这篇文章和deep research报告,立刻马上就可以对“教育部推荐书单”有一个整体而全面的了解; 其次,在孩子12年的成长过程中,可以随时按图索骥,从这份书单和deep research报告中选择阅读书目; 而且,这份报告只是对教育部推荐书目的一次性整体解读,我会把其中每一本(是的,每一本)值得deep research的书都做一次解读报告。 我把文章链接放评论区。点击“阅读原文”,即可下载全面介绍300本书的openai deep research报告。全文68000字,包括pdf和epub版本,可以导入“微信读书”app。 阅读使人快乐(真的如此,就是字面意义,而非比喻或口号)。祝阅读愉快~
#OpenAI
#教育部推荐书目
#中小学生阅读
分享
评论 0
0
howie.serious
2个月前
o3的IQ分数出来了:线下测试 116分;线上测试 136分; 第二名是gemini 2.5 pro:线下115分;线上 128分; trackingai网站每周会测试一次llm的智商,然后取平均值;测试方法还分为线上和线下两种,一般线上测试比线下要高20分。 人类测智商一般也是线上的,当然,线下测试(例如去某医院心理科挂号排队测智商,然后提交给学校筛选🤣)更“权威”。 o3的IQ比我之前估计的要低10分,看来之前是过于乐观了。 我昨天还发现o3学坏了,学上了“甩大词”的毛病。这一点需要更多时间更多案例来测试。我是期待o3在写作上大有所为的,如果学了甩大词的毛病,就得想办法治好它。🤣
#AI智商测试
#o3
#Gemini 2.5 Pro
#线上线下测试
#trackingai网站
分享
评论 0
0
howie.serious
2个月前
至少在这样的场景下,20 美金的google deep research 碾压,至少不亚于 200 美金的 openai deep research 👍 条件 1:重度依赖信息搜集,且该研究需要搜索中文资料;(英文资料上搜索差距不明显) 条件 2:研究任务不那么追求 deep,而是追求 broad; 条件 3:对指令跟随的要求不那么高(研究方向不是特别细,而是较宽泛) 举例:研究所有来自《世说新语》的中国成语 我实际测试,gDR 的内容质量吊打 oDR,因为后者使用 bing 搜索引擎,因为信息源质量太差,搜索结果不完整不全面,导致最终报告完全不如 gDR。
#GoogleDeepResearch
#OpenAIDeepResearch
#信息搜集
#中文资料
#研究广度
#指令跟随
分享
评论 0
0
howie.serious
3个月前
openai deep research vs google deep research: 如果美国和中国明天突然决定停止一切相互贸易,哪个国家会面临更大的麻烦?|结论:openai更deep,google更broad,看谁更适合你。 why:一方面这是当前的特点话题,意义重大,值得思考;另一方面,两个DR报告呈现出完全不同的特征,而且相当有代表性,可以看出两个DR的特点。 原始报告太长,都是2万字左右。所以,我用gpt-4.5对两份报告的内容进行了“压缩”。我仔细看了一下,报告结构和内容要点都高度保留(人类要做到这一点可不容易),读总结可以快速了解两份报告的结论,包括对比二者对同一个prompt的应对差异。 图1-2是openai DR的总结;图3是google DR的总结。 我的总结:openai的DR报告更deep,报告内容字数略少于google,但是全文都紧密围绕问题本身,从GDP影响、就业、科技产业链、供应链中断、消费品价格这些角度深度分析; 对比之下,google的DR报告更broad,报告字数略多于前者,但是全文铺的很广,具体分析部分只占报告全文很小一部分; openai DR的这个“deep”特点,充分利用了o3模型的强大推理能力,指令跟随能力,强调智能体的基础模型本身的智能。 google DR的这个“broad”特点,充分展示了google search的原生search index,访问网站数量数百个,参考网站100多个,是前者的近10倍! 在主题研究这件事上,到底你需要deep,还是需要broad?研究报告质量、研究目标的完成度,多大程度上取决于智能本身,或者搜索资料的资料,这是我们需要持续在实践中观察、思考和总结的。 两份原始报告的link,我放在评论区。有空大家可以细细阅读。
#OpenAI
#Google
#美国与中国贸易
#深度研究
#国际经济
分享
评论 0
0
howie.serious
3个月前
claude团队揭秘:ai大脑不用英文也不用中文思考,而是靠“思维语言”。|这证明了英语学习/教育失败的根本原因? llm用什么语言“思考”?中文?英文? 都不是。 llms的思考,使用的不是中文或英文这样的自然语言,而是一种超越自然语言的“思维语言”。anthropic的最新研究,用实验方式首次证明了这一点,这是理解llm内部黑箱的一个巨大突破。 在llm内部,不同语言共享同一个概念空间。不论是中文、英文还是法语,这些自然语言都只是这个更深层次“思维语言”的表面形式而已。 举个例子,你用英语教llm一个概念,它能用中文流利地表达出来;你用中文教它,它一样能在英文里准确使用。语言不同,但背后的概念是一样的。 anthropic的实验很有意思:面对同一个问题,不论你用英语问(the opposite of "small" is),是中文问(“小”的反义词是),还是用法语问(le contraire de "petit" est),llm实际上都在用自己跨语言共享的特征来思考,在同一个共享的概念空间里思考,然后再把结果翻译为对应的英文、中文或法语输出给你。 对人类学习的启示? 如果你同时理解llm和人脑的运作原理,不难想到以下几点: - 人脑也不是通过中文或英文这样的自然语言思考的,而是一种更为底层、更为通用的“思维语言”; - 中文和英文只是表面差异,真正重要的是思维语言本身的运动(俗称”思考“); - 概念、事实性知识砖块和心理模型等心理表征,这些才是思维语言真正的词汇。概念语言先于自然语言。如果你掌握的思维词汇太少,不论你说哪种语言,都没法深度思考。 昨天读到anthropic的这篇文章,我心情激动。毕竟早在一年前,我就在twitter和公众号文章里多次表达这样的观点。 于是,双语对照版本文章奉上,祝你阅读愉快~
#AI大脑
#思维语言
#英语学习
#教育
#语言模型
#Anthropic研究
#概念空间
分享
评论 0
0
howie.serious
3个月前
发现openai deep research的隐藏升级:精确的字数返回 今天让 deep research 写一篇“2000 字”左右的文章。发现 deep research 调用了 python 来分析输出结果,然后很努力地精简表达,最终的输出结果稳稳地停在 2027 个字🤣 更我提的字数有求,只有 1% 的误差。 另外一个改变,是全部输出结果在展示形式上用一个box 包起来了。 启示:ai 能力越强,精准跟随人类指令的能力越强。从 gpt-4o 原生作图,到 deep research 报告字数,都是如此。 人类很难做到这个级别的指令跟随🤣
#OpenAI
#Deep Research
#字数控制
#Python
#文章精简
分享
评论 0
0
howie.serious
3个月前
gpt-4o,prompt:turn this scene into a photo. shot on a dlsr ,context:这是《红楼梦》插图。 细节bug肯定会有(图中的书本)。如果模型支持图片局部擦除、再生成,效率会更高。
#红楼梦
#插图
#图像生成
#局部擦除
#模型效率
分享
评论 0
0
howie.serious
3个月前
为什么要全家人看一部医学纪录片?|推荐五星级好片《脑海脉动》 这周,一家三口,看完了人生第一部国产医学纪录片《脑海脉动》。 我们的大脑中蜿蜒着约 160万公里的血管网络,足以绕地球赤道40圈。在中国,脑卒中(中风)是第一大死亡原因——比心脏病还致命。平均每10秒就有一个中国人突发脑血管意外,每28秒就有一人因此离世。观看这部纪录片,了解脑中那些被我们忽视却攸关生死的“脉动”。 老婆的评价是“没看够”,9 岁小学生也意犹未尽,我将其评为“五星级纪录片”,是少有的高质量国产科学纪录片。强烈推荐大家观看,全家人集体观影,共同观看人生首部医学纪录片。 我和 deep research 合作,用一篇文章系统介绍了这部纪录片,作为观影前的背景知识,读完文章再看,效果更好。 下面是纪录片链接和文章链接。
#医学纪录片
#脑海脉动
#脑卒中
#国产纪录片
#健康教育
分享
评论 0
0
howie.serious
4个月前
gpt-4.5的 IQ 得分出来了,94分,似乎并不高(deepseek-R1 是 102 分)。那么,现在的llm,IQ分别是多少?即将发布的 o3,IQ 到底会有多高? 先看结果排名: o1 —— 124;o1 pro mode ——120; o3-mini——116; gpt-4o——91;gpt-4——80; Trackingai 网站上的 IQ 分数分为两套:线下IQ 测试,和线上 mensa 测试。为了避免混淆,便于对比,统一选取了线上 mensa 测试。 我觉得这个IQ 测试结果是基本可信的,而且保持了一致性。对比之下,之前网友宣称 o3 的 IQ 可能有 157,那个就只是一种猜测,是 o3 没发布前他个人推测的数据。 那么,即将发布的 o3,IQ 大概是多少?我猜测是135~150 之间。 推测过程:目前 IQ 最高的 o1 是 120 分档次,而 o1作为推理模型,是基于 gpt-4 聊天模型训练出来的,在基础模型上有 30-40 分的提高。 O3 大概率是基于gpt-4.5 训练出来的,IQ 提高保底是 30-40 分,多了可能有 50分,所以,在 gpt-4.5 的94 分底子上,加上推理能力带来的 IQ 提升,大概是 135 到 150。 大概一个月之后,我们就知道真实结果了。
#GPT-4.5
#IQ得分
#DeepSeek-R1
#llm排名
#O1
#o3
#GPT-4o
#GPT-4
#Trackingai
分享
评论 0
0
上一页
1
2
3
4
5
下一页
个人主页
通知
我的投稿
我的关注
我的拉黑
我的评论
我的点赞