Barret李靖
5个月前
看到一个可以将文章直接转换成 PPT 演讲的工具,Paper2Video,一篇文章+一个头像+一段语音样本,它就能帮你生成一个生动的演讲解说视频。对于偏专业和学术性的场景,这个工具几乎能承担起人工完成的工作,做学术汇报和做课程的朋友有福了😄 仔细阅读了源码和论文,它的实现方式颇为精妙,整个 PPT 的渲染,主要基于 Beamer 这个声明式布局框架: 1)首先让大模型对内容做一次通篇的解说,并做好摘要分段,确保能够把核心知识表达清晰; 2)对于每页 PPT 的布局,通过视觉模型判断是否存在溢出、错位、拥挤等情况,如果存在类似的问题,就会让布局模块生成多套拼接方案,对图片和文字进行缩放后进行不同组合,再由视觉模型从中挑选出最优的一张; 3)过程中还添加了一个虚拟鼠标,方便捕获观众的注意力,也让整个呈现更具动态感与交互感; 4)口型采用的是 Hallo2,这是一种支持长时长、高分辨率、音频驱动的人像动画模型,能够让头像与语音同步地做口型/表情动画。 这个工具主要解决的还是论文汇报场景,不过有几个思路值得借鉴,包括如何将文章内容做拆解、如何做好 PPT 排版,如何做好口型等。 稍微改改,应该也能适配到更大众化的领域,例如做自动培训视频、技术方案的交互式解说,甚至产品手册的可视化呈现,把 Paper2Video 升级成 Doc2Video。
Barret李靖
5个月前
维权没啥特别经验,我只知道一个原则,别事事只为自己,想一想问题的普遍性,去寻找更大的问题,同时为最大的问题找到责任方和监管方。 租车的商家想坑点钱,这没啥错,但不能狮子大开口,否则就会出现行业乱象,最恶劣的那波人都会冲入平台;难道平台不知道这类问题么,他们知道,但考虑到 ROI,他们会在“非关键”环节减少投入,例如租车价变更的审批、预扣款的审批等等,这些环节重要但也容易产生沟通纠纷。 这次糟糕的租车体验,一定有平台的疏于管控,有可能是缺少对商家的培训和教育,有可能是缺少对流程的优化,也可能是业务流程过于非标导致治理困难。因此投诉,首先要找到平台的问题。 那平台为什么会出问题?一个行业,只要发展成熟,就会出现对应的监管部门,例如快递,十多年前是没有针对快递的监管部门的,因为乱象太多,后来专门成立了这个部门。监管部门有责任和义务应对行业乱象,因此投诉,一旦受阻,应该即刻去找监管部门。 投诉的要点是什么?不是我被坑了多少钱,而是平台缺少哪些标准化的流程和监管机制,因此才出现问题,然后我才被坑,投诉的要点一定是朝着平台规范化治理去的。你试想一下,那些政府部门的人想拿到好的结果,是不是也得有几个真实 case 可以切入进去,才能做出改变。 当然,最终的鞭子肯定会抽到作恶的商家头上,如果只是要个人赔偿,那么让商家感受到平台客服、平台治理和政府监管的多重压力,同时让他们意识到自己在法律的边缘游走,这事儿基本就成了。但如果需要平台认错,让他们发生变化,还得靠朋友们一起花时间去斗争。
Barret李靖
5个月前
推荐学习下微软搞的这个 R&D-Agent 框架, ,它是一个让 AI 能够自己做科研的系统——能提出问题、设计实验、验证结果、总结规律,整套科研流程都能自动化执行。 微软还基于这套框架,构建了一个用于量化投资研究的智能体 R&D-Agent(Q),,并与开源量化平台 Qlib 结合,实现了自动化因子挖掘与策略优化。照这个趋势发展下去,未来的量化研究,恐怕真得交给 AI 来操盘了,😅 R&D-Agent 的整体架构分为两个阶段:研究阶段(Research Phase)和开发阶段(Development Phase)。研究阶段由四个部分组成:规划、探索路径结构、推理管线和记忆上下文,它们通过反馈机制持续循环,不断在假设、实验与分析之间往复,让系统在多轮探索中自动调整方向、积累知识、优化策略;开发阶段则承接研究成果,主要包括编码工作流与评估策略,前者把想法变成可执行代码,后者负责验证与对比结果,确保系统演化出的改进真实可靠。两个阶段形成首尾相接的闭环,让科研过程实现持续反馈与自我进化。 从本质上看,R&D-Agent 不是在“模拟科研”,而是在“系统化科研”。它让科学探索从线性的人力流程,转变为并行的智能网络。每一次假设的提出与验证,都会被记录下来,形成一份不断扩展的知识图谱,让科研活动变得可编排、可追踪、可积累。 相关论文:1)《R&D-Agent: An LLM-Agent Framework Towards Autonomous Data Science》, ;2)《Qlib: An AI-oriented Quantitative Investment Platform》,
Barret李靖
5个月前
软件开发里有一种叫 TDD(Test-Driven Development)的方式,简单讲,就是先写好测试用例,然后再写程序。每写一部分代码就立刻跑对应的测试,看能不能通过。能通过说明实现符合预期,不通过就说明有 bug。TDD 的好处在于,它让整个研发过程可验证、可回归,也让开发变成一种持续的反馈循环。 AI 的发展其实也像是在做一场巨大的 TDD,只不过测试用例变成了数据集(Dataset)。每一次模型迭代,本质上就是在跑新的单测(Benchmark)。MMLU 测知识广度,GSM8K 测逻辑推理,HumanEval 测编程能力,AIME 和 MATH 则测严谨的数学推理。每个 leaderboard 都是一张 AI 世界的成绩单——DeepSeek 在数学推理上用 GSM8K 打出好成绩,Manus 则靠打榜多模态任务的数据集 GAIA 崭露头角。这些 Benchmark 像是模型进化的里程碑,每一代 AI 都得交卷。 2025 可以说是智能体(Agent)元年,模型不再只靠会算、会说来评估,而是要能动手。要让一个 Agent 真正好用,光靠写 Prompt、加检索、拼上下文是不够的,它得能使用工具,能执行 Python、Shell、SQL,能感知状态、理解任务依赖,更要能在反馈中调整自己的行为。评估 Agent 好不好用,也就不能只看单轮问答,而得看它能否完成一件真实的工作。 Anthropic 做的 SWE-bench 就是个典型例子,让 Agent 去修真实项目里的 Bug,看能否通过单测。OpenAI 的 MLE-bench 则更进一步,考察 Agent 在机器学习工程中的执行力,从读数据、清洗、编程、训练,到收集指标、分析再改进,形成一个完整的闭环。社区里还在探索更复杂的测试,比如 App-bench,看 Agent 是否能独立开发一个 Web 应用,从前端到后端再到部署上线;或者 Ops-bench,让它去处理运维任务,比如容器编排、日志分析、系统回滚。这些都在考验 Agent 的真实工程执行力。 AI 的进步,正在从“能思考”走向“能执行”。TDD 让软件工程可验证,而在 AI 世界,Dataset 和 Benchmark 是创新的发动机。Dataset 定义了模型学习的方向,Benchmark 则刻画了行业标准与竞争格局。 未来的竞争,不再是谁的模型更聪明,而是谁的智能体更能干活。真正厉害的 AI,不一定语义最深、参数最多,而是那个能自己规划、自己验证、自己改进的 Agent。换句话说,AI 的未来不只是更聪明的脑子,而是更靠谱的手和脚,能想、能做、还能自己查错修正,这才是“用得上”的智能。
Barret李靖
5个月前
Barret李靖
5个月前
Barret李靖
5个月前