时政
财经
科技
虚拟货币
其他
登录
AIGCLINK
关注
统计数据
83
文章
0
粉丝
0
获赞
531
阅读
热门文章
1
TechFlow 深潮 发布的文章:近期教育领域的变化引发了广泛讨论,我认为教育改革应该更加注重学生的个性化发展和创新能...
145
32
AIGCLINK
1周前
微软给的一套AI呼叫中心解决方案,Azure+OpenAI,扔一个API请求或直接拨号,AI语音客服即可接/打电话、记录报修、面试预约等 可以呼入、呼出 实时语音对话,支持打断、静音检测、多语言TTS/ASR、定制AI语音 通话结束后即生成一个网页报告 写工单可自定义字段,比如时间、地点、其他信息等 可以定制任务流、知识库管理、定制AI语气风格 #AI语音客服
OpenAI新德里发布会:ChatGPT语音翻译功能引发热议· 791 条信息
#AI语音客服
#微软Azure
#OpenAI
#呼叫中心解决方案
#自动化
分享
评论 0
0
AIGCLINK
1周前
李飞飞World Labs的生成式多模态世界模型:Marble 刚刚已发布,一张图片/视频/文本提示/3D布局,即生成高保真3D世界 单图、文本、多视角图、短视频、粗糙3D块都能当prompt 生成之后还能二次创作 AI原生笔刷可以局部删改、换材质、换风格、换结构 可以一键扩世界 也可以多个小场景拼接 能导出高斯溅射、三角网格,也可渲染成带精确相机轨道的视频,在视频后处理环节自动添加烟、火焰、流水等动态元素,同时去除画面瑕疵 也就是说,做游戏的能直接拖进Unity/Unreal 当关卡;影视人可导出带相机轨道的视频当预演 #3D生成 #AI3D #Marble
AI视频井喷:Midjourney领跑,多模态混战· 318 条信息
#李飞飞
#World Labs
#生成式多模态
#3D世界模型Marble
#AI辅助创作
分享
评论 0
0
AIGCLINK
2周前
阿里刚刚发了一个智能简历解析系统:SmartResume,直接把PDF/图片/Office文档简历变成结构化数据 HR部门的手动录入工作可以直接秒级完成了 系统融合了OCR与PDF元数据完成文本提取,结合版面检测重建阅读顺序,通过LLM将内容转换为结构化字段 能够提取基本信息、工作经历、教育背景等结构化信息 模型用的微调版Qwen3-0.6B,版面检测模型用的YOLOv10 可API及本地模型部署 #简历提取工具 #SmartResume
#阿里
#SmartResume
#智能简历解析
#Qwen3-0.6B
#YOLOv10
分享
评论 0
0
AIGCLINK
2周前
一句话生成Excalidraw手绘风的专业图表工具:Smart Excalidraw 可以生成流程图、架构图、ER图20+种图表,可以智能匹配合适的图表类型,对研发、产品经理来说简直是神器 智能箭头优化算法,自动计算最佳连接点,来确保图表有序、逻辑清晰,避免线条交叉 输出的是标准Excalidraw格式,想微调颜色、位置、加图标随便拖 #AI图表生成 #SmartExcalidraw
#AI图表生成
#SmartExcalidraw
#手绘风图表
#流程图
#架构图
分享
评论 0
0
AIGCLINK
2周前
Anthropic官方给出的【如何通过代码执行+MCP,来构建更高效的AI智能体】,把token消耗从15万降到了2千,时间/费用节省98% 随着连接工具的增多,直接工具调用方式导致的Token消耗过高、智能体效率降低问题 核心思想,把MCP服务器视为代码API,非直接的工具调用,让智能体编写代码来与MCP服务器交互 来增强智能体上下文效率、降低成本、减少延迟,也可以增强智能体处理复杂任务的能力,同时兼顾隐私 工具发现机制,把MCP工具组织成文件系统结构,比如,servers/google-drive/getDocument.ts,智能体可以通过探索文件系统来按需发现和加载所需的工具定义,无需一次性加载所有工具 代码编排,智能体不再直接调用工具,而是生成一段代码比如TypeScript,这段代码会调用封装好的函数来与MCP工具交互,比如说,将“从Google Drive下载会议记录并附加到Salesforce线索”的任务,转化为一段包含 gdrive.getDocument() 和 salesforce.updateRecord() 调用的代码 隐私保护上,中间结果默认保留在执行环境中,只有明确记录或返回的数据才会进入模型的上下文 对于敏感数据,比如个人身份信息 PII,MCP客户端可以在数据到达模型之前对其进行脱敏,并在需要时再进行反脱敏,确保敏感信息永远不会直接暴露给模型 #MCP #AIagent
#多智能体之争:Anthropic生态VS单智能体· 77 条信息
#AI智能体
#MCP服务器
#代码编排
#Token消耗
#隐私保护
分享
评论 0
0
AIGCLINK
2周前
强,人民币不到150元手搓了一套AI导盲眼镜,可以盲道导航、过马路辅助、物品识别、实时语音交互,方案开源 基于ESP32,加AI模型+硬件,实现“帮我过马路”,系统就会实时播报“前方3米有斑马线,现在绿灯,可以通行” 功能可以扩展,比如新增“找公交站”功能,在 workflow_blindpath.py加代码即可 其他人也能同时用手机或电脑以第一视角实时看,远程协助 盲道导航,基于YOLO实时识别盲道、智能语音引导、识别障碍物并规划避障路线、识别急转弯并提前提醒 过马路辅助,实时检测斑马线位置方向、识别红绿灯、引导用户对准斑马线中心、绿灯时语音提示可以通行 物品识别与查找,智能物品搜索、使用YOLO-E开放词汇检测+ByteTrack 追踪、结合MediaPipe手部检测引导手部靠近物品、检测手部握持动作确认已拿到 实时语音交互,基于阿里云DashScope Paraformer实时语音识别、多模态对话 项目来自B站AI研究室-帆哥 #AI导盲眼镜 #AI导盲
#AI导盲眼镜
#盲人辅助
#开源项目
#B站帆哥
#实时语音交互
分享
评论 0
0
AIGCLINK
2周前
强,一款多Agent舆情分析系统:BettaFish微舆,用自然语言提出需求,这就可以自动分析国内外30+主流社媒 相当于“零门槛”有了个情报智库,一句话拿到全景舆情报告 全域采集,爬虫集群同时抓取微博、小红书、抖音、快手等 10+平台,评论也抓 可以多模态识别,像抖音、快手等短视频内容能解析,搜索引擎里的天气、日历、股票等结构化信息卡片也能解析 除了外部公开舆情,也可以把企业内部数据库接进来一起分析 也可以做为特定领域的舆情分析工具,比如说,修改一下Agent工具集的api参数与prompt,就可以变成一个金融领域的市场分析系统 #AI舆情工具 #BettaFish微舆
#AI舆情工具
#BettaFish微舆
#多Agent舆情分析
#全域采集
#零门槛
分享
评论 0
0
AIGCLINK
2周前
阿里最新放出了一款用于理解和操作GUI的GUI Grounding模型:UI-Ins,在5个基准上刷出新SOTA,安卓任务成功率74.1% 主打一个“把一句话变成屏幕上的准确点击”,指令即推理,它把一句话拆成多条思维链,然后挑最靠谱的那条去点屏幕 有泛化推理能力,能组合出训练时没有明确教过的新推理角度 有7B、32B两版 UI-Ins的7B在AndroidWorld端到端任务成功率74.1%,比Gemini 2.5 Computer Use的69.7 %高出4个点 UI-Ins-32B在UI-I2E-Bench上达到了87.3%的准确性,在ScreenSpot-Pro上达到了57.0%,在MMBench-GUI L2上达到了84.9% #大模型 #UIIns
#UI-Ins
#GUI Grounding模型
#安卓任务成功率74.1%
#泛化推理能力
#大模型
分享
评论 0
0
AIGCLINK
3周前
美团刚刚开源了一款低延迟全模态大模型:LongCat-Flash-Omni,128K上下文+支持超8分钟实时音视频交互 能听能看能说,毫秒级延迟,可以拿来搭建实时语音助手、直播弹幕机器人、音视频质检等 在OmniBench上超Gemini-2.5-Flash、Qwen3-Omni,接近Gemini 2.5 Pro;在MMBench与Gemini、GPT-4o、Qwen-VL相当;MVBench上超Gemini 2.5 Pro和 GPT-4o 通用知识接近DeepSeek V3.1、Qwen3等 总参数560B,激活27B,基于其LongCat-Flash的ScMoE 架构 #大模型 #LongCatFlashOmni
Google Gemini 2.5发布引发AI模型性价比热议· 412 条信息
OpenAI新德里发布会:ChatGPT语音翻译功能引发热议· 791 条信息
#美团
#LongCat-Flash-Omni
#开源
#大模型
#多模态
#低延迟
分享
评论 0
0
AIGCLINK
3周前
英伟达版的“Banana”,英伟达开源了一款物理级图像编辑模型:ChronoEdit-14B,静态图+一句话,4秒生成一张符合物理的图像 ChronoEdit具备“时间观念”和“物理常识”,它能理解动作,比如说“推倒”、“拿起”这种动作,可以根据它学到的物理常识,画出这个动作发生后,世界应该变成什么样子 8 步扩散完成一次图像编辑,在H100上约4秒一张图 从效果看,预测动作发生结果的能力比较强,改变姿势后,人物、服装、背景风格的一致性也保持的比较好,光影、反射效果处理的也比较符合逻辑 可以用在游戏制作、电影特效、机器人训练等场景上 #ChronoEdit #AI图像编辑
AI视频井喷:Midjourney领跑,多模态混战· 318 条信息
#英伟达
#ChronoEdit-14B
#AI图像编辑
#物理级图像编辑
#4秒生成图像
分享
评论 0
0
AIGCLINK
1个月前
Claude Skill:Vibe working的时代来临,每个人都可以用自然语言构建专业的workflow,以结果为导向替代人和岗位的新时代来临 Claude skill等同于简历里的skill,使用大模型的解决问题的方式越来越接近人类的工作协同方式,渐进式信息加载到context是claude skill的核心设计思想。
Claude Skills系统发布引发AI行业新变革· 56 条信息
#claude skill
#自然语言
#Workflow
#大模型
#工作协同
分享
评论 0
0
AIGCLINK
1个月前
Anthropic前两天新出的一个让Claude从通用秒变领域专家的工具:Agent Skills 它把知识、脚本和资源打包成文件夹,让Claude按需动态加载,来解决通用大模型缺乏领域流程以及上下文的问题 相当于给AI写一份指南,告诉它如何使用公司的工具、遵循特定的工作流程来完成任务 结构比较简单,一个文件夹+(YAML开头写明名称与描述) 渐进式信息披露的方式,AI只在需要时加载信息,节省上下文窗口,启动时只读YAML开头,需要时整篇 SKILL 入上下文,再深入才读同目录下的附加文件/脚本 技能包里可以包含文本指令、Python脚本,AI可直接运行脚本,也可把代码读入上下文当参考 开发流程:先评估任务缺口,再小步迭代补技能,用真实对话观察 Claude使用方式,让Claude自己反思并补充技能 相当于Agent Skills通过模块化可扩展的方式,把专业知识打包后赋能AI,来构建满足特定需求的智能体 #AIAgent #AgentSkills
Claude Skills系统发布引发AI行业新变革· 56 条信息
#Anthropic
#Claude
#Agent Skills
#领域专家
#AI工具
分享
评论 0
0
AIGCLINK
1个月前
酷,从论文生成演示视频的工具:Paper2Video,输入一篇论文,直接吐出一段带真人头像、字幕、翻页指针的学术演讲视频 把读论文、做PPT、录讲解、剪片子全部自动化了,几分钟可产出一条能直接发B站/YouTube的学术演讲视频 其技术实现是用了一个PaperTalker多智能体框架,该框架把复杂的生成任务分解成四个并行的构建器 幻灯片构建器,把论文转成LaTeX幻灯,自动排版、自动纠错 字幕构建器,看图说话,写出讲解词和该指哪的提示 光标构建器,把提示变成屏幕坐标,同步移动鼠标/激光笔 演讲者构建器,用TTS把字幕转成旁白,再用预先提供的演讲者肖像照,生成虚拟数字人演讲视频 并且它配备了一套评估体系,来评价生成的学术视频的准确性和高效性 #论文转视频 #Paper2Video
#论文转视频
#Paper2Video
#学术演讲视频
#自动化
#数字人
分享
评论 0
0
AIGCLINK
1个月前
新加坡国立大学Show Lab放出了一款教育视频自动生成工具:Code2Video,非常实用 把写教案升级为了自动代码动画生成,同时更好的解决了生成内容逻辑结构和视觉准确性的问题 对老师来说,只需要输入教学主题就能自动获得一个3Blue1Brown风的教学动画 Code2Video核心是让AI先自动写Manim Python代码,然后再渲染出教育视频,并非直接出视频。是一个多智能体架构,包括Planner、Coder和Critic 看给出的效果,跟Veo3、Wan-2.1比,Code2Video在逻辑结构、知识准确性,以及教学清晰度上表现更好一些 视频通过代码生成,对生成的每个元素、动作、公式都可以精准控制,这就比较适合需要逻辑结构和视觉准确性的教学场景 #AI教学视频生成 #AI公式视频 #AI教育 #Code2Video
AI视频井喷:Midjourney领跑,多模态混战· 318 条信息
#AI教学视频生成
#Code2Video
#新加坡国立大学
#教育动画
#Manim Python
分享
评论 0
0
AIGCLINK
1个月前
sora 2的发布,正式开启AI视频分发平台0-1的突破(也应验年初的2025趋势预测),未来将产生以下十大影响: 1、sora2的发布,正式将AI视频2D生成领域带向全面内卷化,其实当前开源领域已经可以达到类似效。 2、为AI类视频的分发提供了原生native的地方,也将极大打击抖音、tiktok等平台的对AI类视频内容不友好的气焰(这类平台极大限制AI生成内容的分发) 3、未来一年全网的视频、图像内容中,AI类内容渗透率将从不足10%提升到35%以上,也就是我们看到3条内容将有1条是AI生成的。 4、AI生成电影将在未来6个月内成为现实,虽然当前sora2生成电影还有些乏力,但这个gap在6个月内就会被磨平。 5、sora2将会极大刺激视觉领域:影视行业、广告片行业、动态漫行业、短剧行业等将会迎来大的爆发,在AI加持下将会大爆发,规模也会在原来规模基础上增加3倍+。 6、sora2成为AI首个集生产内容和消费内容为一体的平台,也会成为AI领域继大模型、AI搜索之后的第三个被C端用户大规模接受的赛道,将会出现AI超级应用。 7、法律法规大概率在6个月内会有相关落地,以防止诈骗等AI类灰色内容产生。 8、sora2也会反向为视觉模型、物理模型的成熟带来大量的优质数据集,极大的促进视觉模型大爆发,开源版的sora2预计在2个月内会出现。 9、困扰很多视觉模型的数据集版权问题(尤其前段时间海螺ai的版权风波罚款),sora2的出现会极大的缓解,尤其当年语言模型都蒸馏gpt一样,这一波视觉模型也会同样发生。 10、国产的sora2大概率在2个月内会出现,困扰大家最难的是视频数据集的版权,至少这次sora2的出现一定程度上解决了这个问题。 #sora2 #tiktok #sora的影响
AI视频井喷:Midjourney领跑,多模态混战· 318 条信息
#Sora2发布
#AI视频分发
#AI内容渗透率提升
#AI生成电影
#视觉领域爆发
分享
评论 0
0
AIGCLINK
1个月前
谷歌发布的Veo3的核心技术CoF(视觉模型思维链),正在推动视觉模型从特定任务模型到通用视觉模型的演进,犹如当年大语言模型经历了NLP到LLM的进化,视觉模型也在经历从特定任务的CV到通用视觉基础模型的进化。 Veo 3 有很强的泛化能力,其在未训练任务上表现出极强的零样本能力,如物体分割、边缘检测、物理模拟和迷宫求解等。通过 18,384 个生成视频评估 62 个定性任务和 7 个定量任务,证明视频模型可成为通用视觉基础模型,其不仅是视频生成模型还是视觉感知基础模型。 Veo 3 像 LLM 改变文字一样,推动视频 AI 向通用基础模型演进,降低门槛,促进教育和研究创新,这篇论文将成为通用视觉基础模型的一个重要基石。 核心论文:
智谱直播发布全球最佳视觉模型GLM-4.5V,挑战AI视觉领域极限· 19 条信息
#谷歌Veo3
#视觉模型思维链CoF
#通用视觉模型
#零样本能力
#视频AI
分享
评论 0
0
AIGCLINK
1个月前
Anthropic关于上下文工程的最新发布:要想充分发挥AI智能体的潜力,需要上下文工程! 博客讲了上下文工程在构建AI智能体中的重要性及相关策略,是对提示工程的进一步拓展和深化 提示工程,关注的是如何写出更好的提示词 上下文工程,关注的是在模型推理过程中,如何持续选择和管理最有助于任务完成的信息(也就是上下文),包括系统提示、工具、外部数据、对话历史等等 构建有效上下文的原则是用最少的、高价值的信息,引导模型产生最佳行为 1. 系统提示 应清晰、简洁、具体,避免过度逻辑化或过于模糊 推荐分模块组织,比如说背景、指令、工具说明、输出格式等,使用XML或 Markdown标签 初始提示应尽可能小,是指信息刚好足够引导行为,然后根据测试结果逐步补充 2. 工具 工具应功能单一、清晰、无歧义,避免功能重叠 工具返回的数据应精简、高效,避免浪费上下文空间 工具集应保持“最小可用集”,便于模型决策和维护 3. 示例 提供典型、多样化的示例,避免堆砌边缘案例 示例比规则更有助于模型理解任务 动态的获取上下文,与其一次性加载所有信息,不如让智能体在运行时通过工具动态获取所需数据 1.通过文件路径、命名规则、时间戳等元数据判断信息的相关性 2.支持“渐进式信息发现”,避免一次性加载大量无关内容 对于持续数分钟到数小时的任务,比如代码迁移、研究项目,需要特殊策略应对上下文窗口限制 1. 压缩 定期总结对话内容,保留关键信息,比如决策、bug、实现细节,丢弃冗余内容 可结合模型自动生成摘要,保持任务连续性 2. 结构化笔记 智能体定期将关键信息写入外部记忆,比如文件、数据库 在需要时再将相关内容加载回上下文 3. 多智能体架构 主智能体负责任务协调,子智能体负责具体子任务 子智能体可深入探索某一问题,仅将摘要返回主智能体,避免上下文过载 适用于复杂研究、并行任务等场景 #上下文工程 #ContextEngineering
#AI智能体
#上下文工程
#提示工程
#信息管理
#任务优化
分享
评论 0
0
AIGCLINK
1个月前
智谱MaaS平台,、智谱清言已支持GLM-4.6 海外用户可通过使用API 技术博客:
智谱直播发布全球最佳视觉模型GLM-4.5V,挑战AI视觉领域极限· 19 条信息
#智谱MaaS平台
#智谱清言
#GLM-4.6
#API
#海外用户
分享
评论 0
0
AIGCLINK
1个月前
刚刚,智谱最新旗舰模型:GLM-4.6出来了,核心亮点代码能力大幅提升,较GLM-4.5提升了27% 在公开基准与真实编程任务中,GLM-4.6的代码能力说是对齐Claude Sonnet 4 上下文窗口由128K提升到了200K,这就能更好的处理复杂的代码项目和需要长程记忆的智能体任务 推理能力提升,支持在推理过程中调用工具 搜索能力、写作能力增强,写作风格和可读性更贴近人类偏好,在角色扮演等场景下表现更自然 在平均token消耗上4.6比4.5节省30%以上,同类模型最低 目前已上线智谱MaaS平台bigmodel,即将在Hugging Face、ModelScope开源 #GLM46 #GLM
智谱直播发布全球最佳视觉模型GLM-4.5V,挑战AI视觉领域极限· 19 条信息
#GLM-4.6
#代码能力提升
#200K上下文窗口
#推理能力增强
#智谱MaaS平台
分享
评论 0
0
AIGCLINK
1个月前
一款长篇小说自动生成工具:AI_NovelGenerator,解决了长篇小说创作中保持一致性的痛点,自动衔接上下文、伏笔 其通过模块化功能,来对小说创作过程进行精细化控制 动笔前,可以先设定小说的世界观、核心角色、剧情蓝图、雷点暗线等 智能章节生成,设有状态追踪,系统的管理角色发展轨迹和伏笔的埋设与回收 对已生成的内容进行检索,使长篇故事上下文保持一致性 自动审校,提供完整的图形界面,可以在一个窗口内完成配置、生成、编辑、审校所有操作 #AI长篇小说工具
#AI小说生成
#长篇小说创作
#自动化工具
#一致性
#模块化控制
分享
评论 0
0
AIGCLINK
1个月前
阿里今天还放出来一款实时多模态同传模型:Qwen3-LiveTranslate-Flash,具备视觉能力,能听能看,3秒延迟可实时翻译 能识别18语言和粤语、北京话、四川话等6种方言,能说10种语言 引入了视觉上下文增强技术,可以识别口型、动作、文字、实体,解决在嘈杂音频环境,或者是一词多译词场景下的翻译问题 中英及多语言语音翻译准确度优于Gemini-2.5-Flash、GPT-4o-Audio-Preview、Voxtral Small-24B #AI同传 #Qwen3同传 #AI实时翻译
#AI同传
#Qwen3-LiveTranslate-Flash
#多模态翻译
#实时翻译
#阿里
分享
评论 0
0
AIGCLINK
1个月前
阿里的最新TTS:Qwen3-TTS,跨语言混合能力强,感觉基本无缝切换,比Qwen-TTS多了更多的语言和方言支持 同样能根据输入文本自动调整韵律、节奏和情绪变化 跨语言的音色一致性也比较好 中文支持普通话、北京、上海、四川、南京、陕西、闽南、天津、粤语 多语言支持英文、西班牙语、俄语、意大利语、法语、韩语、日语、德语、葡萄牙语 做有声书、AI客服、短视频配音的可以看看 #TTS #Qwen3TTS
#Qwen3-TTS
#跨语言
#语音合成
#阿里巴巴
#AI
分享
评论 0
0
AIGCLINK
2个月前
阿里应该会开源一个统一的角色动画与角色替换模型:Wan-Animate 基于Wan-I2V构建,给定一张角色图像和一段参考视频,复刻参考视频中人物的动作表情,生成保留原图背景的新视频 或者是,把照片里的人物植入到目标视频中,替换视频里原来的人物,它能智能补光,使之与场景环境无缝集成 #WanAnimate #Wan
阿里开源Wan-Animate,角色动画与替换技术引发热议· 10 条信息
#阿里
#Wan-Animate
#角色动画
#角色替换
#开源
分享
评论 0
0
AIGCLINK
2个月前
强,阿里通义刚刚又放出了一款深度研究智能体:通义DeepResearch,30B参数媲美OpenAI Deep Research Humanity's Last Exam得分32.9,BrowseComp得分45.3,xbench-DeepSearch得分75.0 128K上下文长度,擅长长周期、深度信息搜集,需要进行复杂问题分解、多步推理、信息搜集整合的场景可以用 其用智能体数据持续预训练的方式,来增强推理和规划能力;用on-policy强化学习方法,来确保决策能力的稳健性 两种推理模式: ReAct 模式,单模型逐步推理,轻量 Heavy 模式,多Agent并行IterResearch,再统一合成答案,测试时算力可扩展 目前这个智能体已经落地到高德地图的多日行程规划,以及法律助手通义法睿里了 #深度研究 #DeepResearch #tongyiDeepResearch
谷歌Deep Research:AI操作系统雏形?· 136 条信息
#通义DeepResearch
#深度研究智能体
#30B参数
#长周期信息搜集
#高德地图多日行程规划
分享
评论 0
0
AIGCLINK
2个月前
这些天正在给一家设计平台做AI生成网红陈设的产品,昨天看到字节的Seedream V4简直是雪中送碳,直接可以平替Nano Banana,之前用nano banana最头疼的算法备案问题可以解决了,赞一个👍
#AI生成
#网红陈设
#Seedream V4
#字节跳动
#算法备案
分享
评论 0
0
1
2
3
4
下一页
个人主页
通知
我的投稿
我的关注
我的拉黑
我的评论
我的点赞