AIGCLINK

统计数据

121

文章

0

粉丝

0

获赞

2601

阅读

5个月前

酷，从论文生成演示视频的工具：Paper2Video，输入一篇论文，直接吐出一段带真人头像、字幕、翻页指针的学术演讲视频把读论文、做PPT、录讲解、剪片子全部自动化了，几分钟可产出一条能直接发B站/YouTube的学术演讲视频其技术实现是用了一个PaperTalker多智能体框架，该框架把复杂的生成任务分解成四个并行的构建器幻灯片构建器，把论文转成LaTeX幻灯，自动排版、自动纠错字幕构建器，看图说话，写出讲解词和该指哪的提示光标构建器，把提示变成屏幕坐标，同步移动鼠标/激光笔演讲者构建器，用TTS把字幕转成旁白，再用预先提供的演讲者肖像照，生成虚拟数字人演讲视频并且它配备了一套评估体系，来评价生成的学术视频的准确性和高效性 #论文转视频 #Paper2Video

#论文转视频 #Paper2Video #学术演讲视频 #自动化 #数字人

6个月前

新加坡国立大学Show Lab放出了一款教育视频自动生成工具：Code2Video，非常实用把写教案升级为了自动代码动画生成，同时更好的解决了生成内容逻辑结构和视觉准确性的问题对老师来说，只需要输入教学主题就能自动获得一个3Blue1Brown风的教学动画 Code2Video核心是让AI先自动写Manim Python代码，然后再渲染出教育视频，并非直接出视频。是一个多智能体架构，包括Planner、Coder和Critic 看给出的效果，跟Veo3、Wan-2.1比，Code2Video在逻辑结构、知识准确性，以及教学清晰度上表现更好一些视频通过代码生成，对生成的每个元素、动作、公式都可以精准控制，这就比较适合需要逻辑结构和视觉准确性的教学场景 #AI教学视频生成 #AI公式视频 #AI教育 #Code2Video

AI视频井喷：Midjourney领跑，多模态混战· 337 条信息

#AI教学视频生成 #Code2Video #新加坡国立大学 #教育动画 #Manim Python

6个月前

sora 2的发布，正式开启AI视频分发平台0-1的突破（也应验年初的2025趋势预测），未来将产生以下十大影响： 1、sora2的发布，正式将AI视频2D生成领域带向全面内卷化，其实当前开源领域已经可以达到类似效。 2、为AI类视频的分发提供了原生native的地方，也将极大打击抖音、tiktok等平台的对AI类视频内容不友好的气焰（这类平台极大限制AI生成内容的分发） 3、未来一年全网的视频、图像内容中，AI类内容渗透率将从不足10%提升到35%以上，也就是我们看到3条内容将有1条是AI生成的。 4、AI生成电影将在未来6个月内成为现实，虽然当前sora2生成电影还有些乏力，但这个gap在6个月内就会被磨平。 5、sora2将会极大刺激视觉领域：影视行业、广告片行业、动态漫行业、短剧行业等将会迎来大的爆发，在AI加持下将会大爆发，规模也会在原来规模基础上增加3倍+。 6、sora2成为AI首个集生产内容和消费内容为一体的平台，也会成为AI领域继大模型、AI搜索之后的第三个被C端用户大规模接受的赛道，将会出现AI超级应用。 7、法律法规大概率在6个月内会有相关落地，以防止诈骗等AI类灰色内容产生。 8、sora2也会反向为视觉模型、物理模型的成熟带来大量的优质数据集，极大的促进视觉模型大爆发，开源版的sora2预计在2个月内会出现。 9、困扰很多视觉模型的数据集版权问题（尤其前段时间海螺ai的版权风波罚款），sora2的出现会极大的缓解，尤其当年语言模型都蒸馏gpt一样，这一波视觉模型也会同样发生。 10、国产的sora2大概率在2个月内会出现，困扰大家最难的是视频数据集的版权，至少这次sora2的出现一定程度上解决了这个问题。 #sora2 #tiktok #sora的影响

AI视频井喷：Midjourney领跑，多模态混战· 337 条信息

#Sora2发布 #AI视频分发 #AI内容渗透率提升 #AI生成电影 #视觉领域爆发

6个月前

谷歌发布的Veo3的核心技术CoF（视觉模型思维链），正在推动视觉模型从特定任务模型到通用视觉模型的演进，犹如当年大语言模型经历了NLP到LLM的进化，视觉模型也在经历从特定任务的CV到通用视觉基础模型的进化。 Veo 3 有很强的泛化能力，其在未训练任务上表现出极强的零样本能力，如物体分割、边缘检测、物理模拟和迷宫求解等。通过 18,384 个生成视频评估 62 个定性任务和 7 个定量任务，证明视频模型可成为通用视觉基础模型，其不仅是视频生成模型还是视觉感知基础模型。 Veo 3 像 LLM 改变文字一样，推动视频 AI 向通用基础模型演进，降低门槛，促进教育和研究创新，这篇论文将成为通用视觉基础模型的一个重要基石。核心论文：

智谱直播发布全球最佳视觉模型GLM-4.5V，挑战AI视觉领域极限· 21 条信息

#谷歌Veo3 #视觉模型思维链CoF #通用视觉模型 #零样本能力 #视频AI

6个月前

Anthropic关于上下文工程的最新发布：要想充分发挥AI智能体的潜力，需要上下文工程！博客讲了上下文工程在构建AI智能体中的重要性及相关策略，是对提示工程的进一步拓展和深化提示工程，关注的是如何写出更好的提示词上下文工程，关注的是在模型推理过程中，如何持续选择和管理最有助于任务完成的信息（也就是上下文），包括系统提示、工具、外部数据、对话历史等等构建有效上下文的原则是用最少的、高价值的信息，引导模型产生最佳行为 1. 系统提示应清晰、简洁、具体，避免过度逻辑化或过于模糊推荐分模块组织，比如说背景、指令、工具说明、输出格式等，使用XML或 Markdown标签初始提示应尽可能小，是指信息刚好足够引导行为，然后根据测试结果逐步补充 2. 工具工具应功能单一、清晰、无歧义，避免功能重叠工具返回的数据应精简、高效，避免浪费上下文空间工具集应保持“最小可用集”，便于模型决策和维护 3. 示例提供典型、多样化的示例，避免堆砌边缘案例示例比规则更有助于模型理解任务动态的获取上下文，与其一次性加载所有信息，不如让智能体在运行时通过工具动态获取所需数据 1.通过文件路径、命名规则、时间戳等元数据判断信息的相关性 2.支持“渐进式信息发现”，避免一次性加载大量无关内容对于持续数分钟到数小时的任务，比如代码迁移、研究项目，需要特殊策略应对上下文窗口限制 1. 压缩定期总结对话内容，保留关键信息，比如决策、bug、实现细节，丢弃冗余内容可结合模型自动生成摘要，保持任务连续性 2. 结构化笔记智能体定期将关键信息写入外部记忆，比如文件、数据库在需要时再将相关内容加载回上下文 3. 多智能体架构主智能体负责任务协调，子智能体负责具体子任务子智能体可深入探索某一问题，仅将摘要返回主智能体，避免上下文过载适用于复杂研究、并行任务等场景 #上下文工程 #ContextEngineering

#AI智能体 #上下文工程 #提示工程 #信息管理 #任务优化

6个月前

智谱MaaS平台，、智谱清言已支持GLM-4.6 海外用户可通过使用API 技术博客：

智谱直播发布全球最佳视觉模型GLM-4.5V，挑战AI视觉领域极限· 21 条信息

#智谱MaaS平台 #智谱清言 #GLM-4.6 #API #海外用户

6个月前

刚刚，智谱最新旗舰模型：GLM-4.6出来了，核心亮点代码能力大幅提升，较GLM-4.5提升了27% 在公开基准与真实编程任务中，GLM-4.6的代码能力说是对齐Claude Sonnet 4 上下文窗口由128K提升到了200K，这就能更好的处理复杂的代码项目和需要长程记忆的智能体任务推理能力提升，支持在推理过程中调用工具搜索能力、写作能力增强，写作风格和可读性更贴近人类偏好，在角色扮演等场景下表现更自然在平均token消耗上4.6比4.5节省30%以上，同类模型最低目前已上线智谱MaaS平台bigmodel，即将在Hugging Face、ModelScope开源 #GLM46 #GLM

智谱直播发布全球最佳视觉模型GLM-4.5V，挑战AI视觉领域极限· 21 条信息

#GLM-4.6 #代码能力提升 #200K上下文窗口 #推理能力增强 #智谱MaaS平台

6个月前

一款长篇小说自动生成工具：AI_NovelGenerator，解决了长篇小说创作中保持一致性的痛点，自动衔接上下文、伏笔其通过模块化功能，来对小说创作过程进行精细化控制动笔前，可以先设定小说的世界观、核心角色、剧情蓝图、雷点暗线等智能章节生成，设有状态追踪，系统的管理角色发展轨迹和伏笔的埋设与回收对已生成的内容进行检索，使长篇故事上下文保持一致性自动审校，提供完整的图形界面，可以在一个窗口内完成配置、生成、编辑、审校所有操作 #AI长篇小说工具

#AI小说生成 #长篇小说创作 #自动化工具 #一致性 #模块化控制

6个月前

阿里今天还放出来一款实时多模态同传模型：Qwen3-LiveTranslate-Flash，具备视觉能力，能听能看，3秒延迟可实时翻译能识别18语言和粤语、北京话、四川话等6种方言，能说10种语言引入了视觉上下文增强技术，可以识别口型、动作、文字、实体，解决在嘈杂音频环境，或者是一词多译词场景下的翻译问题中英及多语言语音翻译准确度优于Gemini-2.5-Flash、GPT-4o-Audio-Preview、Voxtral Small-24B #AI同传 #Qwen3同传 #AI实时翻译

#AI同传 #Qwen3-LiveTranslate-Flash #多模态翻译 #实时翻译 #阿里

6个月前

阿里的最新TTS：Qwen3-TTS，跨语言混合能力强，感觉基本无缝切换，比Qwen-TTS多了更多的语言和方言支持同样能根据输入文本自动调整韵律、节奏和情绪变化跨语言的音色一致性也比较好中文支持普通话、北京、上海、四川、南京、陕西、闽南、天津、粤语多语言支持英文、西班牙语、俄语、意大利语、法语、韩语、日语、德语、葡萄牙语做有声书、AI客服、短视频配音的可以看看 #TTS #Qwen3TTS

#Qwen3-TTS #跨语言 #语音合成 #阿里巴巴 #AI

6个月前

阿里应该会开源一个统一的角色动画与角色替换模型：Wan-Animate 基于Wan-I2V构建，给定一张角色图像和一段参考视频，复刻参考视频中人物的动作表情，生成保留原图背景的新视频或者是，把照片里的人物植入到目标视频中，替换视频里原来的人物，它能智能补光，使之与场景环境无缝集成 #WanAnimate #Wan

阿里开源Wan-Animate，角色动画与替换技术引发热议· 10 条信息

#阿里 #Wan-Animate #角色动画 #角色替换 #开源

6个月前

强，阿里通义刚刚又放出了一款深度研究智能体：通义DeepResearch，30B参数媲美OpenAI Deep Research Humanity's Last Exam得分32.9，BrowseComp得分45.3，xbench-DeepSearch得分75.0 128K上下文长度，擅长长周期、深度信息搜集，需要进行复杂问题分解、多步推理、信息搜集整合的场景可以用其用智能体数据持续预训练的方式，来增强推理和规划能力；用on-policy强化学习方法，来确保决策能力的稳健性两种推理模式： ReAct 模式，单模型逐步推理，轻量 Heavy 模式，多Agent并行IterResearch，再统一合成答案，测试时算力可扩展目前这个智能体已经落地到高德地图的多日行程规划，以及法律助手通义法睿里了 #深度研究 #DeepResearch #tongyiDeepResearch

谷歌Deep Research：AI操作系统雏形？· 145 条信息

#通义DeepResearch #深度研究智能体 #30B参数 #长周期信息搜集 #高德地图多日行程规划

6个月前

这些天正在给一家设计平台做AI生成网红陈设的产品，昨天看到字节的Seedream V4简直是雪中送碳，直接可以平替Nano Banana，之前用nano banana最头疼的算法备案问题可以解决了，赞一个👍

#AI生成 #网红陈设 #Seedream V4 #字节跳动 #算法备案

7个月前

Nano Banana+Seedance：0门槛创作任意故事视频，分别解决了图像一致性和视频一致性，2D视觉生成进入新阶段视频内容： 1、Nano Banana：人物换背景、人物转动漫、多对象合并在一个照片里、AI换装、AI生策海报 2、Seedance：基于图片生成一致性较好的视频 3、AI生成视频实现逻辑：大模型LLM生成剧本和分镜内容，Nano Banana生成主角人物图片，基于分镜内容和主角人物照片，生成换场图片，然后基于seedance生成视频。 Nano Banana： Seedance： #banana #seedance #ai生成视频

AI视频井喷：Midjourney领跑，多模态混战· 337 条信息

#nano banana #Seedance #AI生成视频 #图像一致性 #视频一致性

7个月前

阿里马上要发一款语音到视频的模型，WAN 2.2-S2V，把说话声音变成高级影片由音频驱动，基于视觉构建开源 #语音生成AI视频

AI视频井喷：Midjourney领跑，多模态混战· 337 条信息

#阿里 #语音到视频模型 #WAN 2.2-S2V #开源 #AI视频生成

7个月前

微软昨晚开源新模型：VibeVoice-1.5B TTS，可一次生成90分钟语音、多人对话效果听起来质量很高，在说话人一致性和自然轮转上都非常不错 VibeVoice能生成90分钟连续语音，支持4个不同说话人，对像播客这种长篇音频内容生成比较实用基于Qwen2.5-1.5B理解上下文和语义，有两个连续语音分词器，这两个分词器以 7.5Hz的超低帧率运行，在保证音频质量的同时，提高了计算效率，使得处理长序列成为可能模型最终输出带 AI 声明水印支持中/英文 MIT许可证 #TTS #VibeVoice

#微软 #VibeVoice-1.5B TTS #开源模型 #语音生成 #多人对话

7个月前

酷，在Claude Code里给Gemini CLI套一个子智能体外壳，把大型代码库分析任务丢给Gemini的百万token窗口，既省Claude额度，又能拿到高质量结果核心是利用不同模型优势来完成特定任务，大代码扫描用 Gemini，不耗Claude token，并且IDE内一键完成，结果直接可读子智能体自身不执行分析，只需管理Gemini CLI的输入和输出整个教程演示了如何：在Claude Code里新建一个子智能体把这个子智能体配置成Gemini CLI包装器用一句自然语言指令让Gemini扫描整个代码库把Gemini的结果返回Claude，节省时间和token 教程把整套流程、示例命令和注意事项都列出来了，按图索骥来复现 #AI编程助手 #GeminiCLI #ClaudeCode

AI编程工具激战：Claude Code、Gemini Cli崛起· 1256 条信息

#AI编程助手 #Gemini CLI #Claude Code #代码库分析 #节省Token

7个月前

DeepSeek-V3.1昨天已经正式发布，总结下超详细版！ 1、混合推理架构：同时支持思考模式与非思考模式 2、思考效率更高：比DeepSeek-R1-0528、DeepSeek-V3.1-Think能在更短时间内给出答案 3、Agent能力更强：通过Post-Training优化，其工具使用与智能体能力大幅提升 App和网页版，可以通过“深度思考”按钮，切换思考模式与非思考模式 API已同步升级，deepseek-chat对应非思考模式，deepseek-reasoner对应思考模式。API Beta接口支持了 strict模式的Function Calling 另外，已对Anthropic API格式支持，可以将DeepSeek-V3.1能力接入Claude Code框架需要注意的是，DeepSeek-V3.1使用了UE8M0 FP8 Scale 的参数精度。另外，V3.1 对分词器及 chat template 进行了较大调整，与DeepSeek-V3 存在明显差异。建议有部署需求的用户仔细阅读新版说明文档北京时间2025年9月6日凌晨起，DeepSeek开放平台API 接口调用价格进行调整输入0.5元/百万token 输入12元/百万token 取消夜间时段优惠在9月6日前，所有API仍按原价格政策计费 #DeepSeek #DeepSeekV31

深度学习模型升级引发AI能力大跃进，行业迎新变革· 143 条信息

#DeepSeek-V3.1发布 #混合推理架构 #Agent能力提升 #API价格调整 #UE8M0 FP8 Scale

7个月前

首届世界机器人运动会，有田径、搏击、足球赛、药品分拣分装、跳远、舞蹈、武术等，这个赛事未来估计会有更多的竞赛类目 #机器人 #AI

中国机器人队夺得世界杯历史首冠，震撼全球！· 30 条信息

#世界机器人运动会 #机器人 #竞赛 #田径 #足球赛

7个月前

字节放出了一款具备长期记忆能力的多模态智能体：M3-Agent 可以实时处理视觉和听觉输入，并转化为长期记忆，使其不局限于单一模态的信息存储情景记忆，还可以从中提取和积累语义记忆核心是M3-Agent的记忆系统以实体为中心，把与同一实体相关的所有模态信息（比如一个人的面部、声音、相关知识）连起来，形成图谱结构，这就可以使其能更深入一致的理解环境支持多轮迭代推理，根据需要从长期记忆中检索相关信息来辅助推理过程在基准测试中，尤其在需要长期记忆和跨模态推理的任务上，M3-Agent表现优秀 #M3Agent #AIagent

#m3-agent #多模态智能体 #长期记忆 #跨模态推理 #AI

7个月前

刚刚，智谱直播开源其最新视觉模型：GLM-4.5V，多模态，支持图像、视频输入 GLM-4.5V 基于智谱 AI的下一代旗舰文本基础模型 GLM-4.5-Air底座（106B 参数，12B 有源），延续了 GLM-4.1V-Thinking 的技术路线，在 42 个公开的视觉语言基准测试中取得了同规模模型中的 SOTA 性能，涵盖了图像、视频和文档理解等常见任务，以及 GUI 代理操作。实现了一下能力： 1、图像推理（场景理解、复杂多图像分析、空间识别） 2、视频理解（长视频分割与事件识别） 3、GUI 任务（屏幕阅读、图标识别、桌面操作协助） 4、复杂图表及长文档解析（研究报告分析、信息提取） 5、精确的视觉元素定位价格： API 输入2元/输出6元（百万tokens）速度：60-80 tokens/s 预训练→SFT→RL三段训练 - SFT 引入显式COT - 强化学习阶段阶段结合 RLVR & RLHF - 优化了 STEM、多模态、Agent 任务 #zai #智谱 #glm45 #glm45v

智谱直播发布全球最佳视觉模型GLM-4.5V，挑战AI视觉领域极限· 21 条信息

#智谱AI #GLM-4.5V #多模态视觉模型 #开源 #图像视频理解

7个月前

下午去了趟亦庄的世界机器人大会，人挤人太多人了，尤其是人形机器人展区全是人，而落地价值比较大的工业机器人反而人比较少。另外一点就是感觉人形机器人泡沫吹的太大了，到明年初如果没有二级市场回血估计泡泡会破。 #具身智能 #宇树科技

澎湃AI新闻合辑：未来科技与社会热点交锋· 112 条信息

#世界机器人大会 #人形机器人泡沫 #亦庄 #工业机器人 #二级市场回血

7个月前

给定一张平面2D图和提示词，claude使用blender-MCP 工具来生成 3D 模型，结合ThreeJS 或任何应用程序均可无缝使用它们。例如：给一张玩具枪的图片，让claude使用blender-mcp生成其3d模型，然后导出该3d模型结合ThreeJS生成的动态射击游戏网页。 github： #blendermcp #ThreeJS

AI编程工具激战：Claude Code、Gemini Cli崛起· 1256 条信息

#3D模型 #Blender-MCP #ThreeJS #Claude #玩具枪

7个月前

OpenAI GPT-5已发布，推理、编程能力更强，速度更快，400K上下文，可以免费使用！以下对它的推理、编程能力、上下文窗口、API定价以及其他更新整理汇总，一文看全GPT-5 首先GPT-5是一个统一模型，它会自动判断何时需要更复杂的推理，无需手动或自动切换模型性能表现：在SWE-bench Verified和Aider Polyglot上，思考模式下均超过了o3 数学表现，在AIME 2025上， GPT-5 Pro使用Python作为工具，准确率为100% 在可靠性和准确性上比之前的模型有提升，幻觉率和错误率更低具备超强工具使用能力，在Tau上准确率达到了97% GPT-5擅长数学、物理、法律、医学等多个领域；可以软件按需定制，根据需求描述从零编写完整程序；可以以交互的方式来解释复杂的概念，2分钟内生成约400行代码其他更新：写作能力：优化了写作能力，写作质量有提升，能更好的理解语境细节语音功能增强：声音更自然更智能，免费用户可以连续聊天数小时，高级用户几乎无限制，还可以自定义个性化：可以自定义聊天框的颜色、研究个性化预览、记忆力增强、集成Gmail、Google日历等开发者可通过API使用这三个模型 GPT-5 GPT-5 mini GPT-5 nano GPT-5，功能最强大版，适合处理复杂的编程以及需要模型自主行动的智能体任务 mini，更快更具成本效益版，适合需求明确、范围清晰的任务 nano，速度最快、最具成本效益版上下文窗口：支持400K上下文，128K token的输出文本、图像多模态输入具备性价比： GPT-5 输入，1.25美元输出，10美元缓存输入，0.125美元 GPT-5 mini 输入：0.25美元；输出：2.00美元 GPT-5 nano 输入：0.05美元；输出：0.40美元 GPT-5现在已向免费、Plus、Pro和团队用户开放，下周向教育和企业用户开放，免费用户达到限制后将会切换到 GPT-5 mini，Pro用户可无限制使用微软的产品Microsoft 365 Copilot、Microsoft Copilot、 GitHub Copilot 、Visual Studio Code、Azure AI Foundry等都已可用GPT-5 #chatgpt5 #GPT5 #OpenAIGPT5

OpenAI新德里发布会：ChatGPT语音翻译功能引发热议· 869 条信息

#GPT-5发布 #推理编程能力提升 #400K上下文 #API开放免费使用 #多领域应用

8个月前

阿里也在搞AI眼镜，可能会在年内发布，支持高德导航、淘宝比价、支付宝支付、飞猪商旅提醒等这款眼镜具备通义千问大模型能力，与夸克最新AI搜索/问答技术可以高德近眼导航，在骑行、步行场景下导航指引据说眼镜配了5个麦克风加1个骨传导阵列设计，在噪声环境下也可以准确唤醒，支持口音、方言 #AI眼镜 #阿里AI眼镜

#AI眼镜 #阿里 #通义千问 #高德导航 #年内发布