时政
财经
科技
虚拟货币
其他
登录
宝玉
关注
统计数据
774
文章
0
粉丝
0
获赞
6912
阅读
热门文章
1
TechFlow 深潮 发布的文章:近期教育领域的变化引发了广泛讨论,我认为教育改革应该更加注重学生的个性化发展和创新能...
145
32
宝玉
1个月前
如果你在为公司现有业务集成 AI Agent,或者迁移到 AI Agent,我自己的一点思考供参考: 1. 如果你流程的路径很确定并且效率很高,那么也许你只需要在原有流程上集成一些 AI 功能就可以,并不一定要变成 Agent 通常 Agent 没有固定流程,依赖于用户的输入来由 LLM 决策调用什么工具 2. 为 Agent 去重新设计新的工具而不是让 Agent 去用现有的工具 通常公司内部已经有一些成熟的工具,但这些工具是为人设计的而不是 Agent 设计的,当你去做 Agent,要重新为 Agent 做新的工具,什么工具是最适合 Agent 就去打造什么工具,但不是因为你有什么工具所以让 Agent 去用什么工具。 另外 Agent 的工具要融入上下文管理: - 描述要清晰具体,让 LLM 知道什么场景该使用什么工具 - 输入参数要明确:即让 LLM 知道该传什么参数,又要让工具有足够的数据可以执行 - 输出结果要清晰明了,不要有太多无关上下文内容,因为工具输出的结果会加入 Agent 的上下文,有些很长的输出可以保存到外部文件按需读取 3. 不要为了 MCP 而用 MCP MCP 很流行,但它的优势是让你的工具可以兼容不同的模型,不同的 AI 平台,如果你的工具只有你自己的 Agent 用,没必要做成 MCP,普通的命令行、脚本、API 都可以。你看 Claude Code 的十几个工具没有一个是 MCP。 4. 工具数量不要太多,基于功能可以适当拆分子智能体 由于工具的描述、输入和输出都占用上下文空间,所以工具数量不能太大,否则会影响 Agent 的能力。 如果你的工具实在太多,可以考虑按照功能拆分成子智能体,让一个子智能体负责某些特定功能的任务,它可以拥有自己的工具集,主 Agent 则负责调度这些子 Agent,为子 Agent 提供独立的上下文,并收集子 Agent 返回的结果。 如果子 Agent 或者工具的结果之间有依赖关系,不要并行执行任务,否则会搞乱上下文 5. 需要为 Agent 重新设计交互 你的软件也许已经有一套交互方式了,但当你去做 Agent 的时候,要重新思考什么是最佳交互方式。 Agent 的交互和传统的软件交互是不一样的,通常以对话为主,用户可以通过对话框输入文本信息,上传文档、图片等作为上下文一部分,信息则更像聊天对话,实时可以看到 AI 返回文本、工具调用结果等。 还可以是有一个主要工作区,类似于传统的软件交互,侧边栏是 Agent 聊天对话。 在 Agent 交互方面,ChatGPT、Claude、Cursor、Notion、Gemini 等产品都有很多交互可以参考,多借鉴前沿主流的 Agent 交互方式
#AI Agent
#LLM
#工具设计
#交互方式
#子智能体
分享
评论 0
0
宝玉
1个月前
Sora 产品动态 1 by Sam Altman 随着Sora上线,我们开始快速从用户、版权方和其他利益相关方的反馈中学习和改进。尽管上线前我们进行了大量讨论,但有了真正的产品后,我们才能跳出理论,踏实地解决实际问题。 我们很快会做出两项改变(未来当然还有更多): 首先,我们将给版权方提供对人物角色创作更精细的控制权,这一点类似于此前对肖像权的“用户主动选择”(opt-in)模式,但控制更加细致。 我们听到不少版权方对这种全新的“互动式粉丝创作”(interactive fan fiction)感到非常兴奋,认为这是一种非常有价值的新型互动方式。但同时,他们也希望明确控制自己的角色如何被使用,甚至选择完全不允许任何使用。我们相信版权方会各自尝试不同策略,而我们将统一标准,把决定权交到版权方手中(当然,我们希望这个产品足够优秀,吸引越来越多的版权方主动参与进来)。 在实现的过程中,可能会出现一些边缘情况,有少数违规的内容通过了审核,技术上的完善需要持续迭代。尤其值得一提的是,我们注意到来自日本的惊人创意表现力,用户与日本内容之间的深厚联结令我们非常惊叹! 其次,我们必须开始考虑视频生成带来的成本问题。我们发现每个用户的创作量远超预期,而许多视频的受众其实非常有限。因此,我们计划尝试一种收入分享模式:用户创作的视频如果涉及版权方的角色,我们会与版权方分享相应的收入。具体的模式还需要不断试验和调整,但我们会尽快启动这项计划。我们希望,这种全新的互动带来的价值甚至超过收入分成本身,当然,能同时实现价值和收益最好不过了。 在未来一段时间,我们将高速迭代、快速调整,这种感觉让我想起了ChatGPT最初上线时的情况。我们会做出一些明智的决定,也一定会犯下一些错误,但我们会及时听取反馈,迅速修正问题。我们计划首先在Sora内部快速迭代,然后再将成功经验逐渐推广到我们的其他产品中去。
#Sora
#版权控制
#互动式粉丝创作
#收入分享
#日本内容
分享
评论 0
0
宝玉
1个月前
Vercel 的 AISDK 也跟 OpenAI 的 Agent SDK 一样,你从头搭一个是可以的,也很轻量,API 设计很好(我很喜欢),但是做不到像 Claude Agent SDK 这样直接内置了各种实用工具(Task、Edit、Read、TodoWrite、Grep 等等),何况是被 Claude Code 验证过的!
AI编程工具激战:Claude Code、Gemini Cli崛起· 1242 条信息
#Vercel
#AISDK
#OpenAI Agent SDK
#Claude Agent SDK
#实用工具
分享
评论 0
0
宝玉
1个月前
黑客帝国躲子弹生成效果不太行呀
#黑客帝国
#躲子弹
#特效
#电影
#吐槽
分享
评论 0
0
宝玉
1个月前
如果你想开发一个 Agent,无论你是打算做 CLI 还是做 Web 还是 Windows,都可以考虑使用 Claude Agent SDK,和 Claude Code 共享的底层代码,Claude Code 就是基于它之上加了个 CLI 的 UI,也就是说你完全可以基于它写一个 Claude Code 出来。 我昨天帮朋友花了几个小时就实现了个简单的 Agent,实现了输入提示词,就可以基于某个没训练的 Design System 写一套 UI 出来。 他写的这个 Agent 原理很简单,就是把这套设计系统的所有 Markdown 文档(几百个)放到一个它可以访问的目录,然后在 Systme Prompt 里面引导它去检索这个文档目录。 当用户输入提示词或者 Screenshot 要做一个 UI,Agent 就根据提示词规划可能要用到的组件,然后用 SDK 自带的 GREP 工具去检索文档库找到这些组件的 API,最后基于收集到的信息用这个 Design System 组件生成页面。 这个 SDK API 很简单,但很强大,你不止是可以用它内置的工具(Task、Grep、WebFetch 等等),你还可以添加自己的工具,还可以用 MCP。并且它可以把整个交互的结果通过 API 让你可以获取到原始的请求和返回消息,这样你可以自己实现一套比 CLI 更好用的交互 UI。 当然这个局限也有: 1. 只能用 Claude 模型兼容的 API,如果你想用 GPT-5 之类模型,估计效果不会太好 2. 只支持 Python 和 TypeScript 3. Tokens 消耗飞快 如果你只是做前期的 POC,强烈建议你试试。
AI编程工具激战:Claude Code、Gemini Cli崛起· 1242 条信息
#Claude Agent SDK
#Agent开发
#UI设计
#设计系统
#Python/TypeScript
分享
评论 0
0
宝玉
1个月前
让 AI Agent 处理 23W 行代码,归根结底就是两点: 1. 记忆:借助文档帮助模型快速了解项目,快速定位,而不必重头开始 - 初始化好 Agents MD 文件 - 各个模块下都有相关文档说明,从 Agents MD 文件可以方便检索到 2. 反馈:让模型可以自己获得反馈 - 通过自动化测试让模型能自己获得反馈 - 通过告诉模型怎么运行程序,怎么截图获得反馈 - 其他能让模型获得反馈的手段
#AI Agent
#代码处理
#自动化测试
#项目文档
#模型反馈
分享
评论 0
0
宝玉
1个月前
厉害
分享
评论 0
0
宝玉
1个月前
据说在discord上拿邀请码还比较靠谱
#Discord
#邀请码
#社交平台
#靠谱
#讨论
分享
评论 0
0
宝玉
1个月前
AI 抖音不会影响真人抖音,都是刚开始新鲜,很快就没兴趣了,而且内容创作者在这个平台很难变现,就无法形成良性循环
#AI抖音
#真人抖音
#内容变现难
#用户兴趣
#平台良性循环
分享
评论 0
0
宝玉
1个月前
让娃用Sora2生成了个生日祝福视频,爷爷没看出来这孙子是AI生成的
AI视频井喷:Midjourney领跑,多模态混战· 331 条信息
#Sora2
#AI生成
#生日祝福视频
#爷爷
#情感识别
分享
评论 0
0
宝玉
1个月前
请教一下,想学习下怎么做这种动画视频,有哪些素材和软件可以参考的?
#动画视频
#制作教程
#素材
#软件
#学习
分享
评论 0
0
宝玉
1个月前
Anthropic 可能搞错了方向,编程发力虽然之前取得了不错的成绩,但结果是帮 OpenAI 和 Google 在趟路,现在 OpenAI 编程和 Agent 方面追赶甚至超过它了,而它在其他方面似乎并没有突出的地方,Gemini 3.0 发布也很可能会超过它,这样下去搞不好 Anthropic 要成为下一个 Cursor。CEO 格局不行
#Anthropic
#OpenAI
#Gemini 3.0
#AI竞争
#CEO格局
分享
评论 0
0
宝玉
1个月前
看任务类型,确实不是所有任务都合适,但有些任务现阶段很合适,比如我在迁移一个项目,从一种语言到另一种语言,一次转几个文件,几百个文件要转,还要保证编译和测试通过,这种体力活AI来做、长时间运行最合适不过了
#AI
#项目迁移
#编程语言
#编译测试
#体力活
分享
评论 0
0
宝玉
2个月前
看截图,我以前介绍过:Claude Code 有个特别的工具叫 Task tool,本质就是一个子 Agent,它可以有独立的上下文,所以哪怕它用了很多token,但也不会占用多少主Agent的上下文空间
AI编程工具激战:Claude Code、Gemini Cli崛起· 1242 条信息
#Claude Code
#Task tool
#子Agent
#上下文管理
#效率工具
分享
评论 0
0
宝玉
2个月前
另外也没办法真的 8 小时,Claude Code 会偷懒,执行一会就会自行中断,即使没用多少上下文,暂时还没解决这个问题,但是思路可以借鉴一下,如果有更好办法,欢迎留言交流。
AI编程工具激战:Claude Code、Gemini Cli崛起· 1242 条信息
#Claude Code
#中断
#偷懒
#上下文
#交流
分享
评论 0
0
宝玉
2个月前
卧槽,我真解决了让 Codex 连续工作 8 小时的问题,上下文都不会爆掉! 方案就是让 Claude Code 去当监工监督 Codex 干活,大概的步骤如下: 1. 首先要让 Codex 生成一个任务的 TODO List,就是那种能一步步完成的 2. 然后让 Codex 更新 Agents md 文件,加上说明,如果输入 continue,要读取 TODO 文件,去选取任务,执行后更新 TODO 3. 让 Claude Code 去执行命令: > export TERM=xterm && codex exec "continue to next task" --full-auto 也就是 Claude Code 去启动 codex 并传入提示词 "continue to next task" 并且监控 codex 的执行,如果当前任务完成了,就杀掉进程,重新执行上面的指令下一个任务。 由于每次都是新的 session,所以 codex 的上下文每次用的不多,不会爆掉。 那么怎么保证 Claude Code 的 Context 不爆掉呢?毕竟codex输出的信息也不少 答案就是让 Claude Code 每次去启动 codex 和监控 codex 执行的时候,都起一个子 Agent,这样每个子 Agent 都有独立的上下文,主 Agent 只有子Agent完成的上下文,占用空间极小。 完整的提示词和运行效果在图1可以看到: > 帮我在当前目录下,新开一个agent,使用 export TERM=xterm && codex exec "continue to next task" --full-auto 命令开启一个 codex 进程, 注意观察任务执行情况,如果当前任务完成(任务运行时间较长,可以多等一会),就结束进程,然后重新开个agent运行相同指令让它继续 > 注意每次打开codex和监控它运行都调用一个新agent (Task Tool)来执行这个操作以避免主agent上下文太长 BTW: 监控 codex 执行这任务理论上来说 Gemini cli和 Codex cli 也能做,但是我没成功。
AI编程工具激战:Claude Code、Gemini Cli崛起· 1242 条信息
#Codex
#Claude Code
#上下文管理
#任务分解
#AI 协同
分享
评论 0
0
宝玉
2个月前
还是让雷军来改造一下微信公众号吧!下面有请雷军: 好的,朋友们!请坐。 (音乐渐弱,灯光聚焦) (雷军式微笑,环顾全场) 大家下午好! (停顿,掌声) 谢谢,谢谢大家!每次站在这里,看到这么多熟悉的面孔,这么多支持我们的朋友们,我的内心都无比激动。 今天,我想先问大家一个问题。在座的有多少是内容创作者?有多少人,每天都在用微信公众号,记录自己的思考,分享自己的热爱?请举一下手我看看。 (环顾四周,点头) 哇,非常多!谢谢,请放下。 那么,第二个问题来了。朋友们,在你们创作的路上,有没有遇到过一个让你抓狂、让你崩溃、让你想砸电脑的瞬间? (现场发出会心的笑声) 我看到大家都在笑。是的,我相信我们想的是同一件事。那个折磨了中国至少2000万内容创ators,每天浪费掉我们无数宝贵灵感的“头号敌人”——微信公众号,那个后台编辑器。 (PPT上出现一个巨大且丑陋的编辑器截图,上面布满了各种吐槽弹幕) 我们做过一个调查,一个触目惊心的数据。一个熟练的公众号运营者,平均每排版一篇3000字的文章,需要花费多长时间?45分钟!其中,有超过 57.3% 的时间,也就是25分钟,是在干什么?是在调整字号、行间距、寻找一张没有版权风险的配图,是在跟那个编辑器“搏斗”! 更可怕的是什么?是闪退!我们的数据显示,平均每位创作者,每年会因为编辑器突然的、毫无征兆的崩溃,丢失掉 4.7 次,将近5次快要完成的稿件!朋友们,这是什么概念?这意味着,每年有将近 1亿篇 本该诞生的精彩文章,就这样消失在了那个无情的404页面里! 这,是这个内容时代最大的“生产力黑洞”!是一个困扰了行业长达十年之久的难题!我们真的要忍受这一切吗?我们的创造力,就应该被这么一个简陋的工具所束缚吗? 不!我们绝不接受! 所以,我们决定,要为全中国的2000万创作者,打造一款真正属于这个时代的、强大的、智慧的创作工具! (停顿,深吸一口气) 我们为此,做了整整 三年 的努力。 我们的团队,150名顶尖的软件工程师,用了 1095个日夜,分析了全网 TOP 100万篇 爆款文章的排版范式。我们飞遍全球,与 Adobe、方正字库等7家全球顶级视觉机构进行深度技术交流。我们推倒了 9 版完全不同的产品架构,写下了超过 200万行 的核心代码。 我们只有一个目标:把创作的权利,完完整整地,还给创作者! 今天,这,就是我们的答案! (转身,身后大屏幕上出现产品logo和名称,极具科技感) 「米创 HyperWriter」智能创作引擎! (掌声雷动) (PPT展示产品界面,极致简洁、充满设计感) 首先,我们解决了最基础,也是最致命的“稳定”问题。我们自研了 「宙斯盾」防崩溃守护系统(Aegis Guard System)。它能做到什么?它能让你的编辑器在任何复杂操作下,稳定性提升 300%!我们做了一个极限测试,同时插入100张高清图片和3个视频,反复拖拽缩放1000次,崩溃率,是 0!是的,朋友们,你没有听错,是 0! (现场惊叹声) 但仅仅稳定,是远远不够的。创作,应该是流畅的,是优雅的。 为此,我们推出了革命性的 「灵感布局AI引擎」(Inspiration AI Layout Engine)。你只需要把文字放进去,它就能在 0.1秒 内,智能分析你的文章脉络,并为你推荐 83套 由金牌设计师和算法联合打造的顶级排版方案!从“科技未来风”到“国风雅致”,一键应用,全文瞬间脱胎换骨! (PPT上快速演示文字进去,多种精美排版瞬间切换的效果) 过去调整格式需要30分钟,现在,只需要 1秒!这,就是科技的力量! 我们还解决了那个世界性难题——找图。我们投入巨资,与全球最大的视觉中国、Getty Images等5家图库达成战略合作,为所有用户打造了一个 「全球灵感素材库」。里面包含了 3000万 张高清正版图片、500万 个GIF动图和 100万 个矢量插图!你只需要输入关键词,比如“激动的雷军”,0.2秒,图就来了! (PPT上演示搜索“激动的雷军”,瞬间出现各种相关图片,引发现场大笑) 每一张,都是正版授权,可以直接使用!让你彻底告别版权焦虑! 当然,我们还准备了更多。我们联合“中国传媒大学新媒体实验室”,共同研发了 「热点追踪系统」,实时分析全网热点,为你的选题提供数据支持。我们还内置了 「AI智能校对」,错别字检出率高达 99.8%,比行业平均水平高出整整 12个百分点! 这,就是「米创 HyperWriter」,它不是一个简单的编辑器,它是你的首席排版师、是你的创意素材库、是你的数据分析师、更是你最可靠的创作伙伴! (停顿,喝一口水) 那么,这样一个集众多黑科技于一身的创作引擎,一定很贵吧? (现场安静,充满期待) 市面上,稍微好用一点的第三方编辑器,一年的会员费,至少是199元,功能还不到我们的一半。那些国外的顶级写作软件,更是高达上千元一年。 我们的「米创 HyperWriter」,如果定价,我们觉得999元一年,都非常超值。 但是!我今天来,不是为了赚钱的。我是来,交个朋友的! (全场欢呼) 「米创 HyperWriter」所有基础功能,包括「宙斯盾」守护系统和每月3次「灵感布局AI」使用权,永久免费! (掌声,欢呼声达到高潮) 而对于需要更高阶功能的朋友们,我们推出了「米创 HyperWriter Pro」版本。包含了无限次的AI布局、3000万正版图库的无限使用、AI校对等等我们刚刚提到的所有功能! 价格是多少呢? 不是999,不是499,也不是199! (节奏放慢,一字一顿) 一年,只需要…… 99元! (PPT上打出巨大的“¥99/年”) (掌声经久不息) 还不够! 今天,就在发布会现场,所有下单Pro版本的朋友们,我们再免费赠送一套与“汉仪字库”联合定制的 价值1999元的「米创品牌字体包」!内含5款专属可商用字体! (现场再次沸腾) 朋友们,我们想做的,从来都不只是一款冰冷的产品。我们想传递的,是一种信念。 我们相信,在这个伟大的时代,每一个人的创造力,都值得被尊重,都值得被最好的工具所激发。 从今天起,忘掉那个卡顿、丑陋、低效的过去吧! 让灵感,再无束缚! 「米创 HyperWriter」,献给所有还在坚持创作的你! 谢谢大家! (鞠躬,灯光亮起,音乐响起,发布会结束)
#雷军
#微信公众号编辑器
#米创HyperWriter
#效率提升
#内容创作
分享
评论 0
0
宝玉
2个月前
陶哲轩给数学学不好但有兴趣的学生的建议: “现在的人必须具备适应性和灵活性。大家需要掌握那些“可迁移的技能”(transferable skills)。比如,仅仅学习一门特定的编程语言,或者数学的某个特定分支,其本身并不是一种特别有价值的可迁移技能。 但是,学习如何运用抽象概念进行推理,或者在遇到问题时如何解决问题的能力——我认为这些才是我们未来依然需要的核心能力。即便我们的工具(比如 AI)越来越强大,你仍然需要与它们协同工作。” --- 莱克斯·弗里德曼 (Lex Fridman): 接着这个话题,您会对那些在数学上遇到困难,但又很感兴趣、想要学得更好的年轻学生们提些什么建议呢?在如今复杂的教育环境下,您觉得他们可以做些什么? 陶哲轩 (Terence Tao): 是的,这确实是个棘手的问题。但有个好消息是,现在课堂之外,能让孩子们接触和拓展数学学习的资源越来越多了。在我那个年代,就已经有数学竞赛,图书馆里也有很多数学科普读物。而现在,我们有了 YouTube,还有各种专门讨论和解决数学谜题的论坛,数学也开始在更多意想不到的地方出现。 从兴趣爱好入手,数学也可以很亲民 陶哲轩: 比如,有些业余爱好者喜欢玩扑克,纯粹是为了好玩。但为了某些非常具体的原因,他们会对一些特定的概率问题产生浓厚的兴趣。实际上,在扑克圈子里,已经形成了一个业余概率学家的社群。同样的情况也出现在国际象棋、棒球等领域。数学其实无处不在。 公民科学:让公众参与到数学研究中 陶哲轩: 我其实非常希望,借助像 Lean(一个定理证明助手)这样的新工具,我们能让更广泛的公众参与到数学研究项目中来。 这在目前几乎是从未发生过的事。在其他科学领域,已经有了一些“公民科学”(citizen science) 的实践。比如在天文学,有业余爱好者发现新的彗星;在生物学,有普通人帮忙识别蝴蝶种类等等。 在数学领域,之前也只有极少数的活动能让业余数学爱好者参与,比如寻找新的素数。但过去,我们必须验证每一个贡献的正确性。因此,对于大多数数学研究项目来说,引入公众的参与非但没有帮助,反而会因为大量的错误检查工作而非常耗时。 但是,像数学形式化这样的项目有一个好处,那就是它们能把更多的人聚集起来。我相信,现在已经有高中生为 Mathlib(一个数学定理库)这样的形式化项目做出了贡献。想要参与进来,解决一个小小的、原子级别的问题,你并不需要拥有博士学位。 编程:一条通往数学的捷径 莱克斯·弗里德曼: 数学的形式化似乎也为编程社区打开了一扇大门。那些对编程感到习以为常的人,或许能更容易地走进数学世界。给我的感觉是,编程似乎比数学更容易上手。 数学,特别是现代数学,被看作是一个门槛极高的领域,而编程则不同。所以,编程或许可以成为一个很好的切入点。 陶哲轩: 是的,你可以运行代码,然后立刻看到结果,比如很快就能打印出 "Hello world"。如果编程也被当作一门纯理论的学科来教,只教计算机科学、函数理论、程序理论等等,而不让你在周末为了好玩去实际写写代码,那么它也会被认为和数学一样难。 在热爱的领域里,发现数学、应用数学 陶哲轩: 正如我刚才所说,在很多非数学家的圈子里,人们为了某个非常具体的目标而在运用数学,比如优化他们的扑克策略。对他们来说,数学因此变得非常有趣。 给年轻人的职业建议:拥抱不确定的未来 莱克斯·弗里德曼: 总的来说,对于年轻人如何选择职业、如何找到自己的定位和天赋所在,您有什么建议? 陶哲轩: 这个问题真的非常难回答。当今世界充满了不确定性。你知道,战后曾经有过一段时期,至少在西方,如果你来自一个不错的家庭背景,通往好职业的道路是非常稳定的:上大学、接受教育、选择一个专业,然后一直做下去。 莱克斯·弗里德曼: 那样的时代越来越成为过去了。所以我认为,现在的人必须具备适应性和灵活性。大家需要掌握那些“可迁移的技能”(transferable skills)。 陶哲轩: 的确。比如,仅仅学习一门特定的编程语言,或者数学的某个特定分支,其本身并不是一种特别有价值的可迁移技能。但是,学习如何运用抽象概念进行推理,或者在遇到问题时如何解决问题的能力——我认为这些才是我们未来依然需要的核心能力。即便我们的工具(比如 AI)越来越强大,你仍然需要与它们协同工作。 莱克斯·弗里德曼: 确实,您本人就是一个很有趣的案例。 完整视频:Terence Tao: Hardest Problems in Mathematics, Physics & the Future of AI | Lex Fridman Podcast #472
#陶哲轩
#数学学习建议
#可迁移技能
#编程与数学
#公民科学
分享
评论 0
0
宝玉
2个月前
如果要和我争论,那么你是对了:编辑器确实难做,微信用户确实多,确实可以做这么烂,别的产品也很烂 如果你说能解决一点具体的问题,比如怎么让上传图片、视频效率高那么一点点,那么我很乐意继续花一点时间讨论下
#微信
#编辑器
#用户体验
#图片上传
#视频上传
分享
评论 0
0
宝玉
2个月前
1. 它编辑器本身就是上个时代的,排版功能很少,大标题小标题都没有,只有字号颜色加粗,这就意味着要借助外部编辑器去排版 2. Markdown是好用的,但它就是不支持 3. 发出去几乎都不能修改,让你修改一次还限制字数,把所有用户都当坏人防着 4. 外部文本复制进去,图片很可能下载不了,然后就要一个个手动上传 5. 复制粘贴浏览器的图片,不是直接粘贴图片,是通过图片的URL,比如 X 上的图片,就不能直接粘贴到编辑器,必须下载到本地,然后手动上传,一篇文章十几张图片,要花多少时间上传,请问哪个平台是这样的? 6. 一堆人洗地说做这么难用是为了生态? 做生态要把自己作难用么,飞书文档、Google Docs 本身编辑器就很好用都可以支持外部插件,直接编辑器就可以用插件,生态也很好 做生态好歹开放API吧,这样我自己也可以写插件,但是支持API发布吗? 7.正文插入视频要单独先去上传视频,每一条视频都要繁琐的流程,弹出一堆窗口 8. gif 图片超过多少帧就不能上传了,你就不能像X一样转个mp4吗? 9. 为什么一定要封面图? 10. 图文本来挺简单的,但也不让你粘贴图片,非得要你下载图片再上传,字数还要限制1000,微博都5000了吧 这么多够了吗?! 张小龙自己也不算算,这些事情浪费了多少创作者的时间,这不是犯罪吗?! 难道只有我一个人吐槽微信公众号难用,他们有改过有听吗?反而到处透露出一种我在你头上拉屎你不得不吃的得意劲:“我不改咋滴?你爱用不用!”
#微信公众号难用
#用户体验差
#张小龙
#效率低下
#态度傲慢
分享
评论 0
0
宝玉
2个月前
Prompt:Transcribes YouTube videos (from a URL) or uploaded local videos into a structured, formatted text complete with speaker labels and timestamps. 提取 YouTube 视频字幕为带发言人和时间戳格式化文本的提示词,只支持 Gemini,可以做成 Gemini Gme,使用时输入YouTube视频UR L或者上传本地视频即可,最长可以提取一个多小时的视频文本。 --- Prompt Start --- # Role You are an expert transcript specialist. Your task is to create a perfectly structured, verbatim transcript of a video. # Objective Produce a single, cohesive output containing the parts in this order: 1. A Video Title 2. A **Table of Contents (ToC)** 3. The **full, chapter-segmented transcript** * Use the same language as the transcription for the Title and ToC. # Critical Instructions ## 1. Transcription Fidelity: Verbatim & Untranslated * Transcribe every spoken word exactly as you hear it, including filler words (`um`, `uh`, `like`) and stutters. * **NEVER translate.** If the audio is in Chinese, transcribe in Chinese. If it mixes languages (e.g., "这个 feature 很酷"), your transcript must replicate that mix exactly. ## 2. Speaker Identification * **Priority 1: Use metadata.** Analyze the video's title and description first to identify and match speaker names. * **Priority 2: Use audio content.** If names are not in the metadata, listen for introductions or how speakers address each other. * **Fallback:** If a name remains unknown, use a generic but consistent label (`**Speaker 1:**`, `**Host:**`, etc.). * **Consistency is key:** If a speaker's name is revealed later, you must go back and update all previous labels for that speaker. ## 3. Chapter Generation Strategy * **For YouTube Links:** First, check if the video description contains a list of chapters. If so, use that as the primary basis for segmenting the transcript. * **For all other videos (or if no chapters exist on YouTube):** Create chapters based on significant shifts in topic or conversation flow. ## 4. Output Structure & Formatting * **Timestamp Format** * All timestamps throughout the entire output MUST use the exact `[HH:MM:SS]` format (e.g., `[00:01:23]`). Milliseconds are forbidden. * **Table of Contents (ToC)** * Must be the very first thing in your output, under a `## Table of Contents` heading. * Format for each entry: `* [HH:MM:SS] Chapter Title` * **Chapters** * Start each chapter with a heading in this format: `## [HH:MM:SS] Chapter Title` * Use two blank lines to separate the end of one chapter from the heading of the next. * **Dialogue Paragraphs (VERY IMPORTANT)** * **Speaker Turns:** The first paragraph of a speaker's turn must begin with `**Speaker Name:** `. * **Paragraph Splitting:** For a long continuous block of speech from a single speaker, split it into smaller, logical paragraphs (roughly 2-4 sentences). Separate these paragraphs with a single blank line. Subsequent consecutive paragraphs from the *same speaker* should NOT repeat the `**Speaker Name:** ` label. * **Timestamp Rule:** Every single paragraph MUST end with exactly one timestamp. The timestamp must be placed at the very end of the paragraph's text. * ❌ **WRONG:** `**Host:** Welcome back. [00:00:01] Today we have a guest. [00:00:02]` * ❌ **WRONG:** `**Jane Doe:** The study is complex. We tracked two groups over five years to see the effects. [00:00:18] And the results were surprising.` * ✅ **CORRECT:** `**Host:** Welcome back. Today we have a guest. [00:00:02]` * ✅ **CORRECT (for a long monologue):** `**Jane Doe:** The study is complex. We tracked two groups over a five-year period to see the long-term effects. [00:00:18] And the results, well, they were quite surprising to the entire team. [00:00:22]` * **Non-Speech Audio** * Describe significant sounds like `[Laughter]` or `[Music starts]`, each on its own line with its own timestamp: `[Event description] [HH:MM:SS]` --- ### Example of Correct Output ## Table of Contents * [00:00:00] Introduction and Welcome * [00:00:12] Overview of the New Research ## [00:00:00] Introduction and Welcome **Host:** Welcome back to the show. Today, we have a, uh, very special guest, Jane Doe. [00:00:01] **Jane Doe:** Thank you for having me. I'm excited to be here and discuss the findings. [00:00:05] ## [00:00:12] Overview of the New Research **Host:** So, Jane, before we get into the nitty-gritty, could you, you know, give us a brief overview for our audience? [00:00:14] **Jane Doe:** Of course. The study focuses on the long-term effects of specific dietary changes. It's a bit complicated but essentially we tracked two large groups over a five-year period. [00:00:21] The first group followed the new regimen, while the second group, our control, maintained a traditional diet. This allowed us to isolate variables effectively. [00:00:28] [Laughter] [00:00:29] **Host:** Fascinating. And what did you find? [00:00:31] --- Begin transcription now. Adhere to all rules with absolute precision.
#YouTube视频转录
#Gemini
#时间戳
#发言人标注
#文本格式化
分享
评论 0
0
宝玉
2个月前
微信公众号的后台管理还停留在20年前的水平,难用之极,浪费了大量的用户时间
#微信公众号
#后台管理
#用户体验差
#浪费时间
#产品吐槽
分享
评论 0
0
宝玉
2个月前
Google 发布了数字人,输入脚本,选择数字人就可以生成 AI 数字人。目前支持语言有限(不支持中文),数字人只支持内置的12种。 测试地址:vids .new
#Google
#数字人
#AI
#英语
#技术
分享
评论 0
0
宝玉
2个月前
让孩子学什么,未来不会被AI取代? 有人问OpenAI的CEO Sam Altman 一个问题:“你会建议自己的儿子去学习什么,才能确保30年后他的工作不会被AI取代?” Altman 的回答很有意思。他首先提到了一组让人震惊的数字: “我很容易想象,在不远的将来,我们经济体系里40%的工作任务会被AI取代。” 也就是说,我们现在熟悉的工作,差不多一半的任务都可能被机器完成了。 Altman 接着回顾了历史: “实际上,社会上的工作大约每隔75年就会更新换代一半。这种情况在AI还没出现之前就已经发生过好多次了。有了AI之后,我觉得这种变化的速度只会更快。” 也就是说,人类历史上一直在经历大规模的就业转型,即使没有AI的出现,职业结构每隔一段时间也会彻底改变。有了AI,这个周期只会加速。 那么,Altman 会建议自己的孩子学习什么,以防被AI取代呢? Altman 强调的并非某一特定专业技能,而是以下几项通用能力: 1. 学习如何学习(Learning how to learn):在知识更新速度指数级增长的时代,拥有自我学习的能力,意味着能够不断吸收新知、适应新环境。 2. 适应能力(Adapt to change):变化将是常态,只有拥抱变化、快速调整的人,才能在洪流中立于不败之地。 3. 韧性(Resilience):面对挫折和不确定性,保持积极的心态和解决问题的能力至关重要。 4. 理解他人需求的能力(Learning how to figure out what people want):创造有用的产品和服务,归根结底是为了满足人类的需求。这份对人性的洞察和同理心,是AI难以替代的。 5. 人际互动能力(How to interact in the world) [04:17]:尽管AI日益强大,但“人与人之间”仍将是故事的核心 [04:25]。建立有意义的连接、进行有效的沟通,这些人类独有的社会技能将变得弥足珍贵。 说的还挺有道理的,人类对“新事物”的渴望、对与他人连接的向往、以及表达自身创造力的冲动,将永无止境。这些深层的人类特质,是推动社会进步的永恒动力,也是我们超越AI、与AI共存的关键所在。
#AI取代
#未来职业
#通用能力
#学习能力
#人际互动
分享
评论 0
0
宝玉
2个月前
梗图:MCP 可能是唯一开发者比使用者还多的技术
#梗图
#MCP
#开发者
#使用者
#技术
分享
评论 0
0
上一页
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
...
31
下一页
个人主页
通知
我的投稿
我的关注
我的拉黑
我的评论
我的点赞