Y11
4个月前
Sebastian博士在东京大学Taku Komura教授团队读博期间,连续五年每年在SIGGRAPH发表论文,最终搭建出接近商业化的角色控制系统,GitHub上的AI4Animation项目收获7.4k星标,最后一篇《DeepPhase》更是拿下SIGGRAPH最佳论文,这份坚持和成果令人敬佩。 他的研究轨迹清晰可见:从早期的周期性运动控制,到复杂运动组合,再到非周期动态控制,一步步攻克行业难题,实现技术突破。 深入分析他的研究风格,有三点特别值得借鉴: 一是目标明确且长期聚焦,始终围绕“角色控制”这一核心问题深耕,不被短期热点分散精力; 二是精准定位高价值问题,总能捕捉到行业最迫切的需求,而不是选择容易发论文但价值有限的课题; 三是敢于挑战“无答案”的难题,面对角色动作复杂性这一行业痛点,他没有停留在师兄Daniel Holden的PFNN基础上,而是通过Local Motion Phase、DeepPhase等系列研究不断突破,这种“啃硬骨头”的精神正是推动技术进步的关键。 当然,技术能力是他成功的基础。 从运动捕捉到深度学习,从工程实现到Unity引擎应用,他构建了全面的技术知识体系,并且总能敏锐地引入前沿方法,比如在DeepPhase中探索表示学习在动作中的应用,这种对新技术的开放态度,让他的研究始终站在行业前沿。 如果能像Sebastian这样专注一个方向,或许能更早形成自己的技术标签。 更重要的是,我们很容易被“好发论文”的课题吸引,而忽略真正有价值的问题。 真正有价值的研究应该像Sebastian那样,瞄准行业“卡脖子”的难题,比如动态人体渲染质量的瓶颈,而不是满足于表面的技术改进。 还有一点是技术视野的局限。有些同学固守传统方法,对Transformer、扩散模型等新技术持怀疑态度,甚至拒绝尝试,这其实是在浪费可能带来突破的机会。 Sebastian的经历告诉我们,真正的科研突破来自于对核心问题的执着、对技术前沿的敏感和对产业需求的洞察。 希望我们都能以他为榜样,把精力放在有价值的问题上,保持对新技术的好奇心,在自己的领域里深耕细作,真正做出能推动行业进步的研究。
sitin
4个月前
Vercel 模板一键部署,出海网站比想象中简单! 今天跟大家聊聊一个超级实用的流程:用 Vercel 模板一键部署,几分钟就能上线一个出海网站。对新手非常友好,特别适合快速验证想法。 需要准备的账号 上线之前,你只需要准备好三个账号: GitHub:存放代码。 Vercel:一键部署平台,和 Next.js 配合非常丝滑。 Supabase:数据库,支持存储数据、文件,还有登录功能,新手很好上手。 整体流程 1.和 AI 沟通需求 把你的想法丢给 ChatGPT/Gemini,让它帮你写个 MVP 版本的 PRD,聚焦核心功能。 2.生成原型或直接用模板 你可以用 v0、Bolt 这类工具生成原型,也可以直接用 Vercel 模板。我直接选了一个 AI 头像生成器模板,一键导入 GitHub。 3.配置 Supabase 和 API Key 新建一个 Supabase 项目,连接到 Vercel。 模板里需要 和 Leap AI 的 API Key。 的 Key 在官网 → API 页面生成。 Leap 的 Webhook Secret 本地测试随便填,正式上线需要去控制台生成。 4.添加环境变量 如果部署报错,大多数情况是缺少环境变量。直接在 Vercel → 项目 Settings → Environment Variables 里补上就行。 5.再次部署 → 成功上线 成功后,Vercel 会给你一个二级域名,比如 。后续可以再绑定自己的独立域名。 小结 整个过程看起来步骤不少,但实操一次你会发现其实很简单,基本就是复制 Key → 配置环境变量 → 一键部署。 而且一旦跑通,后续就能不断迭代:写功能 → 提交 GitHub → 自动触发部署 → 马上上线。 对做出海项目来说,这是最大的红利:想法到上线,中间几乎没有门槛。 原文:
赵纯想
4个月前
媒体对Agent Builder不兴奋,对Sora2很兴奋。原因是猴性太重,和普遍C端一样,只喜欢能刺激眼球的东西。 Agent Builder不是Coze,不是Dify。它不是工作流的编排和演绎。工作流压根儿、从来就不是Agent,因为它只有固定的流向、固定的产出物。而OpenAI的拖拉拽面板,不是让你规划工作流用的。而是对Agent装配的一种抽象。我花了三个月,探索ClaudeCode的逆向库,才用Go复刻完成的一种Agent的装配,现在所有开发者只需要动动手指就能得到。这种抽象带来的正是Agent核心封装技术的下放和普惠。 Think + ToolUse的排列组合,与固定工作流不同,它代表无穷的可能性。是LLM自身决定下一步该做什么。是真正的Agent,就像你手边的ClaudeCode 和 GeminiCLI。观察你常用的CodingCLI的工具调用链路,每一次都不是固定的。未来,结合你自身的业务设计一系列的工具,由LLM在思考后自身决定调用和调用顺序,就可以释放巨大的智能。而OpenAI,将这一切可视化了。 这还不是重点,重点是OpenAI还想吃下整个交互侧的前端实践。配合Chatkit的Widgets生成能力,我在20秒之内得到了对话流中的交互式组件。将相关组件添加到Agent的体系中,就能实现与用户的垂直场景客制化Agent。每个场景都有自身的专属UIUX,不再是简单的一次性工作后返回,而是将一切App都变身为Cursor的潜力。 图片中就是我自己在laper中设计了很久的对话式故事探讨UIUX交互的OpenAI实践,20秒,颠覆了2个月以来的复杂工作和设计。有句话说得好,"未来已经到来,只不过分布不均"。