sitin
2个月前
World Labs 发布一个全新的实时生成式世界模型 只需一张 H100 GPU即可持续生成一个“真实的虚拟世界” 一张 H100 就能跑到 30–60FPS 的交互帧率,你在浏览器里就能自由转动视角、来回走,画面依然 3D 一致、不会散架。这是官方研究预览+在线 Demo 的能力定位。 它跟以前的视频/3D 有啥不一样? 不搭网格、不堆体素:不走 NeRF、Mesh 那套显式几何管线,直接从图像学“世界”,然后从任意新视角吐出下一帧。听起来像“会画画的相机”。 实时可交互:你动视角它就画下一帧,并且记得你之前看过哪里,回头再看还是那样——官方把这种机制称为空间记忆/上下文调度(context juggling)。 单卡可玩:目标就是单张 H100 实时。行业媒体和开发者圈也在验证与传播这个点。 底层是一个自回归的 Diffusion Transformer: 像“时间上的 GPT + 空间里的渲染器”。 它会把你给的 1–N 张图编码进“世界记忆”,之后每动一下相机就预测“下一帧”,并把新帧再写回记忆里,既连续又一致。 能拿来干嘛? 游戏/互动内容:动态场景、关卡草图,艺术家边走边预览。 AI 智能体训练:更便宜的可交互环境。 AR/VR 与数孪生:从少量图片快速“生”出可探索空间。 这些都是官方与报道里强调的典型方向。 RTFM = 生成式世界引擎雏形:不搭显式 3D,直接从图像里学世界;单卡实时、可交互且持久一致。如果你做游戏、智能体、AR/VR,值得马上关注和试用。
sitin
2个月前
Google 推出「Grounding with Google Maps」功能 将 Gemini 接入Google Maps, 你的问题涉及地理、路线、商户、区域时,模型会自动调用 Maps 数据来补全事实,再用自然语言组织答案。对开发者来说就是:开个开关,回答就“接地气”了 特点: 1.准确且能感知位置的回答:利用 Google 地图广泛且最新的数据来回答地理位置特定的查询。 2.增强个性化功能:根据用户提供的位置信息量身定制推荐和信息。 3.上下文信息和 widget:用于在生成的内容旁边渲染互动式 Google 地图 widget 的上下文令牌。 能力: 1.旅行/行程规划:不只是“随口推荐”,它会看距离、路程时间、开放时间、评分,给出能落地执行的行程表,并且能回一个可嵌入的交互地图。 2.本地化推荐:比如“在纽约找适合带娃的社区”,它会把周边学校、公园、医院、交通一并考虑,给出“城市画像”式建议。 3.空间问答: “这家咖啡店有户外位吗?”“银座这家餐厅周末几点关门?”——答案来自 Maps 的店铺详情和用户评论,可验证、可追溯。 4.行业/商业智能:门店选址、配送路径优化、商圈分析、地理感知客服,AI 不再只会写文案,开始理解“位置 + 时间”的业务变量。 怎么用:在 Gemini API 请求里启用 Grounding with Google Maps 工具,模型会在需要时自动查地图数据;AI Studio 里有现成 Demo 可直接试。 能配什么:限制经纬度范围、控制地图组件显示、定制返回字段(营业时间、照片、评分等)。 支持与覆盖:Vertex AI 与 Gemini API 路线都在推进,覆盖 250M+ Places;支持 2.5 Pro/Flash/Flash-Lite 等型号(以官方清单为准) 总结:AI 从“语言智能”迈进“空间智能”:它不仅知道“是什么”,还明白“在哪、怎么去、多远、怎么安排”。这一步,直接把很多 AI 应用从“文本层”推到了真实世界的可执行层。
sitin
2个月前
分享几个觉得又实用、又有意思的开源项目,GitHub 上都能找到。 1、爬虫开源工具——Crawlee 这个项目在 GitHub 上快 2 万 Star 了,是个用 Node.js(还有 Python 版本)写的网络爬虫框架。 它最大的特点就是:爬虫行为更像真人,不容易被网站的反爬机制拦住。 比如你想抓 TikTok、YouTube 这类动态内容,它都能搞定。 而且自带 CLI 工具,一键生成项目结构,给你现成的模板。 支持 HTTP 请求,也能配合 Playwright 这种浏览器自动化工具去抓复杂网页, 内置了代理切换、请求队列、错误重试、数据存储…… 用一句话总结:非常适合想写爬虫但又不想造轮子的同学。 2、屏幕录制工具——Cap Cap 是一个开源版的 Loom(就是那个录屏 + 视频分享工具)。 它能同时录屏幕和摄像头,还支持跟随鼠标放大,录完能直接剪辑、导出 MP4 或生成链接分享。 最关键的是:它有 Web 和桌面两个版本。Web 版可以自己部署,桌面版还能连接到你自己的 Cap 服务。 3、开源压缩工具——PeaZip PeaZip 是一款跨平台压缩解压工具,支持 Windows、macOS、Linux,能处理超过 200 种格式,包括 zip、rar、7z 这些常见的,还有分卷压缩文件。 它除了基本功能,还特别注重隐私和安全,支持加密、两步验证、安全删除,还有哈希校验、脚本导出等高级功能。 说白了,就是一个开源、无广告、比 WinRAR 更干净的压缩工具。
sitin
2个月前
Github 4.7k star,一款让你可以不用 Figma 也能写 Prompt 画界面的开源神器! 分享一个很有意思的开源项目:SuperDesign。 一句话,它让你不用跳去 Figma,在 IDE 里写一行 prompt 就能把界面画出来,还能直接导出可用的组件/代码。GitHub 已经有 4.7k+ Star 了。 它解决了什么痛点? 我们平时写前端,写代码一套、改界面一套。按钮、表单、布局来回折腾,甚至还要和设计对齐。 做个原型,沟通成本超高。 SuperDesign 的思路很简单:在 IDE 里直接“说人话”→ 自动出线框/组件/代码。省去来回切换。 它到底是什么? 一个嵌在 IDE 里的 AI 设计智能体(AI Design Agent); 你描述:“来个现代风的登录页,有 logo、两个输入框、一个登录按钮”, 它几秒钟在侧边就给你界面结构、线框、配色建议,还能生成组件文件,项目里直接复用。 适配环境 VS Code、Cursor、Claude Code、Windsurf 都能用。 已经用 Cursor 或 Claude Code 的同学,几乎是无缝衔接。 5 个亮点,快速记住 1.一行 prompt 出整页:登录、注册、设置页都能一把梭。 2.不止能看,还能用:自动生成结构化组件,丢进项目继续调样式。 3.多 IDE 兼容:你用啥它认啥。 4.模型可选:本地模型(LM Studio)、OpenAI、OpenRouter 都能接。 5.开源 + 本地落地:没有订阅门槛,产物都在项目的 .superdesign/ 里,版本管理很友好。 怎么上手? 在 VS Code / Cursor 插件市场搜 SuperDesign,安装。 打开左侧 SuperDesign 面板(Cursor 里 Cmd+Shift+P → superdesign: open canvas)。 输入提示词,就能看到界面、线框、组件;一键导出代码用在项目里。 小技巧:在项目根目录建一个 ,把你常用的提示词模板放进去,风格会更稳定。 我个人的感受 SuperDesign 不是要替代设计师,它是把“能落地的界面结构”更快摆到你面前。 从 Cursor、Claude Code,到现在的 SuperDesign,AI 已经不只是“写代码的”,它开始把设计、实现、联动串成一条龙。 未来很可能是:你说一句需求,IDE 就把页面和组件都搭起来了。
sitin
2个月前
免费用户别养、免费群别建,做了这么长时间的知识付费,也明白一个道理——别跟“白嫖型”纠缠:时间成本不在一个水平。 要做,就两条路: 一条是低客单价、全自动、走量。能机器就机器,能文档就文档,售前售后都别上人。 另一条是高客单价、私域、极致服务。加门槛,先筛选,时间只给真正珍惜你时间的人。 为什么不要“免费用户思维” 不尊重时间:动不动上来指点江山,连最基础的自测都不愿意做。 没有付费意愿:就算用了也不转化,反而占带宽、踩节奏。 沟通风险高:你回一句,他能回十句;你赢了,也是输了——时间被榨干。 “他们有的是时间跟你扯;你不是输在道理,是输在“每分钟的价值”。” 公域和免费群最容易掉坑。免费群就是情绪黑洞,话题乱飞、管理成本爆炸。与其守着群被薅,不如把公域内容做清楚,CTA写明白,快进快出,把人导到能转化、能沉淀的闭环里。 处理这类人的方法也别复杂:不理,静默删除。不吵架,不截图,不对线。减少接触面,风险最低。 做自媒体、做培训,这几年我见太多:要积分、要优惠、要资源、要“特殊照顾”的比比皆是。你要有边界感。 不是所有需求都要回,不是所有人都该你服务。把精力放在产品打磨、内容生产、付费用户复购上,别被个体情绪牵着走。 怎么做: 1.关免费口子:免费群不建;已有的逐步冷却或清退。 2.设门槛:小额付费试用/问卷筛选/资料审核,先过滤再服务。 3.统一回应:常见问题用文档和视频,自动回复搞定;一对一“免费咨询”一律谢绝。 最后再强调一遍: 做内容、做产品、做服务,本质就是分配自己的时间。把时间给愿意投入的人,其他一律按下快进键。你守住边界,业务就会更稳、更快。
sitin
2个月前
sitin
2个月前
Claude Haiku 4.5 刚发(小模型),但实力一点不“迷你”。 性能≈五个月前的旗舰 Sonnet 4 速度翻倍(体感就是同样任务等一半时间) 价格更便宜(输入 $1/百万 tokens,输出 $5/百万 tokens) 有些场景甚至反超 Sonnet 4 特点: 1)性能不“迷你” 编程:Agentic coding(SWE-bench)73.3%、Terminal coding 41.0%,几乎和 Sonnet 4(72.7%、36.4%)打平。 数学:Python 工具开着 96.3%,关工具 80.7%,小模型里很能打。 Computer Use(电脑操作):OSWorld 50.7%,直接超 Sonnet 4 的 42.2%。这块确实有点惊喜。 2)速度真的快 官方说 more than twice the speed。实际感觉:Claude Code 写代码、跑任务,等待时间直接砍半。 如果你做 API 应用,延迟下降的价值,很多时候比省钱更关键。 3)更省钱、更好上手 价位:对比 Sonnet 4,整体便宜三分之一。 输入:$1 / 1M tokens 输出:$5 / 1M tokens 接入渠道:Claude API、Amazon Bedrock、Google Cloud Vertex AI、Claude Code、网页端 / App……基本能用 Claude 的地方都能切换 Haiku 4.5。 模型名:claude-haiku-4-5 4)安全性更稳 Haiku 4.5 被官方评为目前最安全的 Claude 系列模型之一: 自动对齐评估里,误对齐行为比例更低(比 Sonnet 4.5、Opus 4.1 还低)。 ASL-2 分级(CBRN 风险评估表现好);而 Sonnet 4.5 / Opus 4.1 是更严格的 ASL-3。 适合谁? 高频调用 / 算力敏感:比如代码助手、数据处理、对话式业务逻辑,想要更低成本 + 更低延迟。 需要“电脑操作”能力的自动化工作流:浏览器/系统级任务编排更稳了。 团队大规模接入:同预算撑起更多调用量。 一句话总结 五个月前,Claude Sonnet 4 是最先进的型号。如今,Claude Haiku 4.5 提供类似的编码性能,但价格仅为其三分之一,速度却提升了一倍多。