时政
财经
科技
虚拟货币
其他
登录
AIGCLINK
关注
统计数据
73
文章
0
粉丝
0
获赞
519
阅读
热门文章
1
TechFlow 深潮 发布的文章:近期教育领域的变化引发了广泛讨论,我认为教育改革应该更加注重学生的个性化发展和创新能...
145
32
AIGCLINK
1周前
Claude Skill:Vibe working的时代来临,每个人都可以用自然语言构建专业的workflow,以结果为导向替代人和岗位的新时代来临 Claude skill等同于简历里的skill,使用大模型的解决问题的方式越来越接近人类的工作协同方式,渐进式信息加载到context是claude skill的核心设计思想。
Claude Skills系统发布引发AI行业新变革· 30 条信息
#claude skill
#自然语言
#Workflow
#大模型
#工作协同
分享
评论 0
0
AIGCLINK
1周前
Anthropic前两天新出的一个让Claude从通用秒变领域专家的工具:Agent Skills 它把知识、脚本和资源打包成文件夹,让Claude按需动态加载,来解决通用大模型缺乏领域流程以及上下文的问题 相当于给AI写一份指南,告诉它如何使用公司的工具、遵循特定的工作流程来完成任务 结构比较简单,一个文件夹+(YAML开头写明名称与描述) 渐进式信息披露的方式,AI只在需要时加载信息,节省上下文窗口,启动时只读YAML开头,需要时整篇 SKILL 入上下文,再深入才读同目录下的附加文件/脚本 技能包里可以包含文本指令、Python脚本,AI可直接运行脚本,也可把代码读入上下文当参考 开发流程:先评估任务缺口,再小步迭代补技能,用真实对话观察 Claude使用方式,让Claude自己反思并补充技能 相当于Agent Skills通过模块化可扩展的方式,把专业知识打包后赋能AI,来构建满足特定需求的智能体 #AIAgent #AgentSkills
Claude Skills系统发布引发AI行业新变革· 30 条信息
#Anthropic
#Claude
#Agent Skills
#领域专家
#AI工具
分享
评论 0
0
AIGCLINK
3周前
酷,从论文生成演示视频的工具:Paper2Video,输入一篇论文,直接吐出一段带真人头像、字幕、翻页指针的学术演讲视频 把读论文、做PPT、录讲解、剪片子全部自动化了,几分钟可产出一条能直接发B站/YouTube的学术演讲视频 其技术实现是用了一个PaperTalker多智能体框架,该框架把复杂的生成任务分解成四个并行的构建器 幻灯片构建器,把论文转成LaTeX幻灯,自动排版、自动纠错 字幕构建器,看图说话,写出讲解词和该指哪的提示 光标构建器,把提示变成屏幕坐标,同步移动鼠标/激光笔 演讲者构建器,用TTS把字幕转成旁白,再用预先提供的演讲者肖像照,生成虚拟数字人演讲视频 并且它配备了一套评估体系,来评价生成的学术视频的准确性和高效性 #论文转视频 #Paper2Video
#论文转视频
#Paper2Video
#学术演讲视频
#自动化
#数字人
分享
评论 0
0
AIGCLINK
3周前
新加坡国立大学Show Lab放出了一款教育视频自动生成工具:Code2Video,非常实用 把写教案升级为了自动代码动画生成,同时更好的解决了生成内容逻辑结构和视觉准确性的问题 对老师来说,只需要输入教学主题就能自动获得一个3Blue1Brown风的教学动画 Code2Video核心是让AI先自动写Manim Python代码,然后再渲染出教育视频,并非直接出视频。是一个多智能体架构,包括Planner、Coder和Critic 看给出的效果,跟Veo3、Wan-2.1比,Code2Video在逻辑结构、知识准确性,以及教学清晰度上表现更好一些 视频通过代码生成,对生成的每个元素、动作、公式都可以精准控制,这就比较适合需要逻辑结构和视觉准确性的教学场景 #AI教学视频生成 #AI公式视频 #AI教育 #Code2Video
AI视频井喷:Midjourney领跑,多模态混战· 282 条信息
#AI教学视频生成
#Code2Video
#新加坡国立大学
#教育动画
#Manim Python
分享
评论 0
0
AIGCLINK
4周前
sora 2的发布,正式开启AI视频分发平台0-1的突破(也应验年初的2025趋势预测),未来将产生以下十大影响: 1、sora2的发布,正式将AI视频2D生成领域带向全面内卷化,其实当前开源领域已经可以达到类似效。 2、为AI类视频的分发提供了原生native的地方,也将极大打击抖音、tiktok等平台的对AI类视频内容不友好的气焰(这类平台极大限制AI生成内容的分发) 3、未来一年全网的视频、图像内容中,AI类内容渗透率将从不足10%提升到35%以上,也就是我们看到3条内容将有1条是AI生成的。 4、AI生成电影将在未来6个月内成为现实,虽然当前sora2生成电影还有些乏力,但这个gap在6个月内就会被磨平。 5、sora2将会极大刺激视觉领域:影视行业、广告片行业、动态漫行业、短剧行业等将会迎来大的爆发,在AI加持下将会大爆发,规模也会在原来规模基础上增加3倍+。 6、sora2成为AI首个集生产内容和消费内容为一体的平台,也会成为AI领域继大模型、AI搜索之后的第三个被C端用户大规模接受的赛道,将会出现AI超级应用。 7、法律法规大概率在6个月内会有相关落地,以防止诈骗等AI类灰色内容产生。 8、sora2也会反向为视觉模型、物理模型的成熟带来大量的优质数据集,极大的促进视觉模型大爆发,开源版的sora2预计在2个月内会出现。 9、困扰很多视觉模型的数据集版权问题(尤其前段时间海螺ai的版权风波罚款),sora2的出现会极大的缓解,尤其当年语言模型都蒸馏gpt一样,这一波视觉模型也会同样发生。 10、国产的sora2大概率在2个月内会出现,困扰大家最难的是视频数据集的版权,至少这次sora2的出现一定程度上解决了这个问题。 #sora2 #tiktok #sora的影响
AI视频井喷:Midjourney领跑,多模态混战· 282 条信息
#Sora2发布
#AI视频分发
#AI内容渗透率提升
#AI生成电影
#视觉领域爆发
分享
评论 0
0
AIGCLINK
4周前
谷歌发布的Veo3的核心技术CoF(视觉模型思维链),正在推动视觉模型从特定任务模型到通用视觉模型的演进,犹如当年大语言模型经历了NLP到LLM的进化,视觉模型也在经历从特定任务的CV到通用视觉基础模型的进化。 Veo 3 有很强的泛化能力,其在未训练任务上表现出极强的零样本能力,如物体分割、边缘检测、物理模拟和迷宫求解等。通过 18,384 个生成视频评估 62 个定性任务和 7 个定量任务,证明视频模型可成为通用视觉基础模型,其不仅是视频生成模型还是视觉感知基础模型。 Veo 3 像 LLM 改变文字一样,推动视频 AI 向通用基础模型演进,降低门槛,促进教育和研究创新,这篇论文将成为通用视觉基础模型的一个重要基石。 核心论文:
智谱直播发布全球最佳视觉模型GLM-4.5V,挑战AI视觉领域极限· 17 条信息
#谷歌Veo3
#视觉模型思维链CoF
#通用视觉模型
#零样本能力
#视频AI
分享
评论 0
0
AIGCLINK
4周前
Anthropic关于上下文工程的最新发布:要想充分发挥AI智能体的潜力,需要上下文工程! 博客讲了上下文工程在构建AI智能体中的重要性及相关策略,是对提示工程的进一步拓展和深化 提示工程,关注的是如何写出更好的提示词 上下文工程,关注的是在模型推理过程中,如何持续选择和管理最有助于任务完成的信息(也就是上下文),包括系统提示、工具、外部数据、对话历史等等 构建有效上下文的原则是用最少的、高价值的信息,引导模型产生最佳行为 1. 系统提示 应清晰、简洁、具体,避免过度逻辑化或过于模糊 推荐分模块组织,比如说背景、指令、工具说明、输出格式等,使用XML或 Markdown标签 初始提示应尽可能小,是指信息刚好足够引导行为,然后根据测试结果逐步补充 2. 工具 工具应功能单一、清晰、无歧义,避免功能重叠 工具返回的数据应精简、高效,避免浪费上下文空间 工具集应保持“最小可用集”,便于模型决策和维护 3. 示例 提供典型、多样化的示例,避免堆砌边缘案例 示例比规则更有助于模型理解任务 动态的获取上下文,与其一次性加载所有信息,不如让智能体在运行时通过工具动态获取所需数据 1.通过文件路径、命名规则、时间戳等元数据判断信息的相关性 2.支持“渐进式信息发现”,避免一次性加载大量无关内容 对于持续数分钟到数小时的任务,比如代码迁移、研究项目,需要特殊策略应对上下文窗口限制 1. 压缩 定期总结对话内容,保留关键信息,比如决策、bug、实现细节,丢弃冗余内容 可结合模型自动生成摘要,保持任务连续性 2. 结构化笔记 智能体定期将关键信息写入外部记忆,比如文件、数据库 在需要时再将相关内容加载回上下文 3. 多智能体架构 主智能体负责任务协调,子智能体负责具体子任务 子智能体可深入探索某一问题,仅将摘要返回主智能体,避免上下文过载 适用于复杂研究、并行任务等场景 #上下文工程 #ContextEngineering
#AI智能体
#上下文工程
#提示工程
#信息管理
#任务优化
分享
评论 0
0
AIGCLINK
1个月前
智谱MaaS平台,、智谱清言已支持GLM-4.6 海外用户可通过使用API 技术博客:
智谱直播发布全球最佳视觉模型GLM-4.5V,挑战AI视觉领域极限· 17 条信息
#智谱MaaS平台
#智谱清言
#GLM-4.6
#API
#海外用户
分享
评论 0
0
AIGCLINK
1个月前
刚刚,智谱最新旗舰模型:GLM-4.6出来了,核心亮点代码能力大幅提升,较GLM-4.5提升了27% 在公开基准与真实编程任务中,GLM-4.6的代码能力说是对齐Claude Sonnet 4 上下文窗口由128K提升到了200K,这就能更好的处理复杂的代码项目和需要长程记忆的智能体任务 推理能力提升,支持在推理过程中调用工具 搜索能力、写作能力增强,写作风格和可读性更贴近人类偏好,在角色扮演等场景下表现更自然 在平均token消耗上4.6比4.5节省30%以上,同类模型最低 目前已上线智谱MaaS平台bigmodel,即将在Hugging Face、ModelScope开源 #GLM46 #GLM
智谱直播发布全球最佳视觉模型GLM-4.5V,挑战AI视觉领域极限· 17 条信息
#GLM-4.6
#代码能力提升
#200K上下文窗口
#推理能力增强
#智谱MaaS平台
分享
评论 0
0
AIGCLINK
1个月前
一款长篇小说自动生成工具:AI_NovelGenerator,解决了长篇小说创作中保持一致性的痛点,自动衔接上下文、伏笔 其通过模块化功能,来对小说创作过程进行精细化控制 动笔前,可以先设定小说的世界观、核心角色、剧情蓝图、雷点暗线等 智能章节生成,设有状态追踪,系统的管理角色发展轨迹和伏笔的埋设与回收 对已生成的内容进行检索,使长篇故事上下文保持一致性 自动审校,提供完整的图形界面,可以在一个窗口内完成配置、生成、编辑、审校所有操作 #AI长篇小说工具
#AI小说生成
#长篇小说创作
#自动化工具
#一致性
#模块化控制
分享
评论 0
0
AIGCLINK
1个月前
阿里今天还放出来一款实时多模态同传模型:Qwen3-LiveTranslate-Flash,具备视觉能力,能听能看,3秒延迟可实时翻译 能识别18语言和粤语、北京话、四川话等6种方言,能说10种语言 引入了视觉上下文增强技术,可以识别口型、动作、文字、实体,解决在嘈杂音频环境,或者是一词多译词场景下的翻译问题 中英及多语言语音翻译准确度优于Gemini-2.5-Flash、GPT-4o-Audio-Preview、Voxtral Small-24B #AI同传 #Qwen3同传 #AI实时翻译
#AI同传
#Qwen3-LiveTranslate-Flash
#多模态翻译
#实时翻译
#阿里
分享
评论 0
0
AIGCLINK
1个月前
阿里的最新TTS:Qwen3-TTS,跨语言混合能力强,感觉基本无缝切换,比Qwen-TTS多了更多的语言和方言支持 同样能根据输入文本自动调整韵律、节奏和情绪变化 跨语言的音色一致性也比较好 中文支持普通话、北京、上海、四川、南京、陕西、闽南、天津、粤语 多语言支持英文、西班牙语、俄语、意大利语、法语、韩语、日语、德语、葡萄牙语 做有声书、AI客服、短视频配音的可以看看 #TTS #Qwen3TTS
#Qwen3-TTS
#跨语言
#语音合成
#阿里巴巴
#AI
分享
评论 0
0
AIGCLINK
1个月前
阿里应该会开源一个统一的角色动画与角色替换模型:Wan-Animate 基于Wan-I2V构建,给定一张角色图像和一段参考视频,复刻参考视频中人物的动作表情,生成保留原图背景的新视频 或者是,把照片里的人物植入到目标视频中,替换视频里原来的人物,它能智能补光,使之与场景环境无缝集成 #WanAnimate #Wan
阿里开源Wan-Animate,角色动画与替换技术引发热议· 9 条信息
#阿里
#Wan-Animate
#角色动画
#角色替换
#开源
分享
评论 0
0
AIGCLINK
1个月前
强,阿里通义刚刚又放出了一款深度研究智能体:通义DeepResearch,30B参数媲美OpenAI Deep Research Humanity's Last Exam得分32.9,BrowseComp得分45.3,xbench-DeepSearch得分75.0 128K上下文长度,擅长长周期、深度信息搜集,需要进行复杂问题分解、多步推理、信息搜集整合的场景可以用 其用智能体数据持续预训练的方式,来增强推理和规划能力;用on-policy强化学习方法,来确保决策能力的稳健性 两种推理模式: ReAct 模式,单模型逐步推理,轻量 Heavy 模式,多Agent并行IterResearch,再统一合成答案,测试时算力可扩展 目前这个智能体已经落地到高德地图的多日行程规划,以及法律助手通义法睿里了 #深度研究 #DeepResearch #tongyiDeepResearch
谷歌Deep Research:AI操作系统雏形?· 108 条信息
#通义DeepResearch
#深度研究智能体
#30B参数
#长周期信息搜集
#高德地图多日行程规划
分享
评论 0
0
AIGCLINK
1个月前
这些天正在给一家设计平台做AI生成网红陈设的产品,昨天看到字节的Seedream V4简直是雪中送碳,直接可以平替Nano Banana,之前用nano banana最头疼的算法备案问题可以解决了,赞一个👍
#AI生成
#网红陈设
#Seedream V4
#字节跳动
#算法备案
分享
评论 0
0
AIGCLINK
1个月前
Nano Banana+Seedance:0门槛创作任意故事视频,分别解决了图像一致性和视频一致性,2D视觉生成进入新阶段 视频内容: 1、Nano Banana:人物换背景、人物转动漫、多对象合并在一个照片里、AI换装、AI生策海报 2、Seedance:基于图片生成一致性较好的视频 3、AI生成视频实现逻辑:大模型LLM生成剧本和分镜内容,Nano Banana生成主角人物图片,基于分镜内容和主角人物照片,生成换场图片,然后基于seedance生成视频。 Nano Banana: Seedance: #banana #seedance #ai生成视频
AI视频井喷:Midjourney领跑,多模态混战· 282 条信息
#nano banana
#Seedance
#AI生成视频
#图像一致性
#视频一致性
分享
评论 0
0
AIGCLINK
2个月前
阿里马上要发一款语音到视频的模型,WAN 2.2-S2V,把说话声音变成高级影片 由音频驱动,基于视觉构建 开源 #语音生成AI视频
AI视频井喷:Midjourney领跑,多模态混战· 282 条信息
#阿里
#语音到视频模型
#WAN 2.2-S2V
#开源
#AI视频生成
分享
评论 0
0
AIGCLINK
2个月前
微软昨晚开源新模型:VibeVoice-1.5B TTS,可一次生成90分钟语音、多人对话 效果听起来质量很高,在说话人一致性和自然轮转上都非常不错 VibeVoice能生成90分钟连续语音,支持4个不同说话人,对像播客这种长篇音频内容生成比较实用 基于Qwen2.5-1.5B理解上下文和语义,有两个连续语音分词器,这两个分词器以 7.5Hz的超低帧率运行,在保证音频质量的同时,提高了计算效率,使得处理长序列成为可能 模型最终输出带 AI 声明水印 支持中/英文 MIT许可证 #TTS #VibeVoice
#微软
#VibeVoice-1.5B TTS
#开源模型
#语音生成
#多人对话
分享
评论 0
0
AIGCLINK
2个月前
酷,在Claude Code里给Gemini CLI套一个子智能体外壳,把大型代码库分析任务丢给Gemini的百万token窗口,既省Claude额度,又能拿到高质量结果 核心是利用不同模型优势来完成特定任务,大代码扫描用 Gemini,不耗Claude token, 并且IDE内一键完成,结果直接可读 子智能体自身不执行分析,只需管理Gemini CLI的输入和输出 整个教程演示了如何: 在Claude Code里新建一个子智能体 把这个子智能体配置成Gemini CLI包装器 用一句自然语言指令让Gemini扫描整个代码库 把Gemini的结果返回Claude,节省时间和token 教程把整套流程、示例命令和注意事项都列出来了,按图索骥来复现 #AI编程助手 #GeminiCLI #ClaudeCode
AI编程工具激战:Claude Code、Gemini Cli崛起· 1100 条信息
#AI编程助手
#Gemini CLI
#Claude Code
#代码库分析
#节省Token
分享
评论 0
0
AIGCLINK
2个月前
DeepSeek-V3.1昨天已经正式发布,总结下超详细版! 1、混合推理架构:同时支持思考模式与非思考模式 2、思考效率更高:比DeepSeek-R1-0528、DeepSeek-V3.1-Think能在更短时间内给出答案 3、Agent能力更强:通过Post-Training优化,其工具使用与智能体能力大幅提升 App和网页版,可以通过“深度思考”按钮,切换思考模式与非思考模式 API已同步升级,deepseek-chat对应非思考模式,deepseek-reasoner对应思考模式。API Beta接口支持了 strict模式的Function Calling 另外,已对Anthropic API格式支持,可以将DeepSeek-V3.1能力接入Claude Code框架 需要注意的是,DeepSeek-V3.1使用了UE8M0 FP8 Scale 的参数精度。另外,V3.1 对分词器及 chat template 进行了较大调整,与DeepSeek-V3 存在明显差异。建议有部署需求的用户仔细阅读新版说明文档 北京时间2025年9月6日凌晨起,DeepSeek开放平台API 接口调用价格进行调整 输入0.5元/百万token 输入12元/百万token 取消夜间时段优惠 在9月6日前,所有API仍按原价格政策计费 #DeepSeek #DeepSeekV31
深度学习模型升级引发AI能力大跃进,行业迎新变革· 127 条信息
#DeepSeek-V3.1发布
#混合推理架构
#Agent能力提升
#API价格调整
#UE8M0 FP8 Scale
分享
评论 0
0
AIGCLINK
2个月前
首届世界机器人运动会,有田径、搏击、足球赛、药品分拣分装、跳远、舞蹈、武术等,这个赛事未来估计会有更多的竞赛类目 #机器人 #AI
中国机器人队夺得世界杯历史首冠,震撼全球!· 27 条信息
#世界机器人运动会
#机器人
#竞赛
#田径
#足球赛
分享
评论 0
0
AIGCLINK
2个月前
字节放出了一款具备长期记忆能力的多模态智能体:M3-Agent 可以实时处理视觉和听觉输入,并转化为长期记忆,使其不局限于单一模态的信息 存储情景记忆,还可以从中提取和积累语义记忆 核心是M3-Agent的记忆系统以实体为中心,把与同一实体相关的所有模态信息(比如一个人的面部、声音、相关知识)连起来,形成图谱结构,这就可以使其能更深入一致的理解环境 支持多轮迭代推理,根据需要从长期记忆中检索相关信息来辅助推理过程 在基准测试中,尤其在需要长期记忆和跨模态推理的任务上,M3-Agent表现优秀 #M3Agent #AIagent
#m3-agent
#多模态智能体
#长期记忆
#跨模态推理
#AI
分享
评论 0
0
AIGCLINK
2个月前
刚刚,智谱直播开源其最新视觉模型:GLM-4.5V,多模态,支持图像、视频输入 GLM-4.5V 基于智谱 AI的下一代旗舰文本基础模型 GLM-4.5-Air底座(106B 参数,12B 有源),延续了 GLM-4.1V-Thinking 的技术路线,在 42 个公开的视觉语言基准测试中取得了同规模模型中的 SOTA 性能,涵盖了图像、视频和文档理解等常见任务,以及 GUI 代理操作。 实现了一下能力: 1、图像推理 (场景理解、复杂多图像分析、空间识别) 2、视频理解 (长视频分割与事件识别) 3、GUI 任务 (屏幕阅读、图标识别、桌面操作协助) 4、复杂图表及长文档解析 (研究报告分析、信息提取) 5、精确的视觉元素定位 价格: API 输入2元/输出6元(百万tokens) 速度:60-80 tokens/s 预训练→SFT→RL三段训练 - SFT 引入显式COT - 强化学习阶段阶段结合 RLVR & RLHF - 优化了 STEM、多模态、Agent 任务 #zai #智谱 #glm45 #glm45v
智谱直播发布全球最佳视觉模型GLM-4.5V,挑战AI视觉领域极限· 17 条信息
#智谱AI
#GLM-4.5V
#多模态视觉模型
#开源
#图像视频理解
分享
评论 0
0
AIGCLINK
2个月前
下午去了趟亦庄的世界机器人大会,人挤人太多人了,尤其是人形机器人展区全是人,而落地价值比较大的工业机器人反而人比较少。 另外一点就是感觉人形机器人泡沫吹的太大了,到明年初如果没有二级市场回血估计泡泡会破。 #具身智能 #宇树科技
澎湃AI新闻合辑:未来科技与社会热点交锋· 95 条信息
#世界机器人大会
#人形机器人泡沫
#亦庄
#工业机器人
#二级市场回血
分享
评论 0
0
AIGCLINK
2个月前
给定一张平面2D图和提示词,claude使用blender-MCP 工具来生成 3D 模型,结合ThreeJS 或任何应用程序均可无缝使用它们。 例如:给一张玩具枪的图片,让claude使用blender-mcp生成其3d模型,然后导出该3d模型结合ThreeJS生成的动态射击游戏网页。 github: #blendermcp #ThreeJS
AI编程工具激战:Claude Code、Gemini Cli崛起· 1100 条信息
#3D模型
#Blender-MCP
#ThreeJS
#Claude
#玩具枪
分享
评论 0
0
1
2
3
下一页
个人主页
通知
我的投稿
我的关注
我的拉黑
我的评论
我的点赞