时政
财经
科技
虚拟货币
其他
登录
AIGCLINK
关注
统计数据
92
文章
0
粉丝
0
获赞
552
阅读
热门文章
1
TechFlow 深潮 发布的文章:近期教育领域的变化引发了广泛讨论,我认为教育改革应该更加注重学生的个性化发展和创新能...
145
32
AIGCLINK
2个月前
Anthropic关于上下文工程的最新发布:要想充分发挥AI智能体的潜力,需要上下文工程! 博客讲了上下文工程在构建AI智能体中的重要性及相关策略,是对提示工程的进一步拓展和深化 提示工程,关注的是如何写出更好的提示词 上下文工程,关注的是在模型推理过程中,如何持续选择和管理最有助于任务完成的信息(也就是上下文),包括系统提示、工具、外部数据、对话历史等等 构建有效上下文的原则是用最少的、高价值的信息,引导模型产生最佳行为 1. 系统提示 应清晰、简洁、具体,避免过度逻辑化或过于模糊 推荐分模块组织,比如说背景、指令、工具说明、输出格式等,使用XML或 Markdown标签 初始提示应尽可能小,是指信息刚好足够引导行为,然后根据测试结果逐步补充 2. 工具 工具应功能单一、清晰、无歧义,避免功能重叠 工具返回的数据应精简、高效,避免浪费上下文空间 工具集应保持“最小可用集”,便于模型决策和维护 3. 示例 提供典型、多样化的示例,避免堆砌边缘案例 示例比规则更有助于模型理解任务 动态的获取上下文,与其一次性加载所有信息,不如让智能体在运行时通过工具动态获取所需数据 1.通过文件路径、命名规则、时间戳等元数据判断信息的相关性 2.支持“渐进式信息发现”,避免一次性加载大量无关内容 对于持续数分钟到数小时的任务,比如代码迁移、研究项目,需要特殊策略应对上下文窗口限制 1. 压缩 定期总结对话内容,保留关键信息,比如决策、bug、实现细节,丢弃冗余内容 可结合模型自动生成摘要,保持任务连续性 2. 结构化笔记 智能体定期将关键信息写入外部记忆,比如文件、数据库 在需要时再将相关内容加载回上下文 3. 多智能体架构 主智能体负责任务协调,子智能体负责具体子任务 子智能体可深入探索某一问题,仅将摘要返回主智能体,避免上下文过载 适用于复杂研究、并行任务等场景 #上下文工程 #ContextEngineering
#AI智能体
#上下文工程
#提示工程
#信息管理
#任务优化
分享
评论 0
0
AIGCLINK
2个月前
智谱MaaS平台,、智谱清言已支持GLM-4.6 海外用户可通过使用API 技术博客:
智谱直播发布全球最佳视觉模型GLM-4.5V,挑战AI视觉领域极限· 21 条信息
#智谱MaaS平台
#智谱清言
#GLM-4.6
#API
#海外用户
分享
评论 0
0
AIGCLINK
2个月前
刚刚,智谱最新旗舰模型:GLM-4.6出来了,核心亮点代码能力大幅提升,较GLM-4.5提升了27% 在公开基准与真实编程任务中,GLM-4.6的代码能力说是对齐Claude Sonnet 4 上下文窗口由128K提升到了200K,这就能更好的处理复杂的代码项目和需要长程记忆的智能体任务 推理能力提升,支持在推理过程中调用工具 搜索能力、写作能力增强,写作风格和可读性更贴近人类偏好,在角色扮演等场景下表现更自然 在平均token消耗上4.6比4.5节省30%以上,同类模型最低 目前已上线智谱MaaS平台bigmodel,即将在Hugging Face、ModelScope开源 #GLM46 #GLM
智谱直播发布全球最佳视觉模型GLM-4.5V,挑战AI视觉领域极限· 21 条信息
#GLM-4.6
#代码能力提升
#200K上下文窗口
#推理能力增强
#智谱MaaS平台
分享
评论 0
0
AIGCLINK
2个月前
一款长篇小说自动生成工具:AI_NovelGenerator,解决了长篇小说创作中保持一致性的痛点,自动衔接上下文、伏笔 其通过模块化功能,来对小说创作过程进行精细化控制 动笔前,可以先设定小说的世界观、核心角色、剧情蓝图、雷点暗线等 智能章节生成,设有状态追踪,系统的管理角色发展轨迹和伏笔的埋设与回收 对已生成的内容进行检索,使长篇故事上下文保持一致性 自动审校,提供完整的图形界面,可以在一个窗口内完成配置、生成、编辑、审校所有操作 #AI长篇小说工具
#AI小说生成
#长篇小说创作
#自动化工具
#一致性
#模块化控制
分享
评论 0
0
AIGCLINK
2个月前
阿里今天还放出来一款实时多模态同传模型:Qwen3-LiveTranslate-Flash,具备视觉能力,能听能看,3秒延迟可实时翻译 能识别18语言和粤语、北京话、四川话等6种方言,能说10种语言 引入了视觉上下文增强技术,可以识别口型、动作、文字、实体,解决在嘈杂音频环境,或者是一词多译词场景下的翻译问题 中英及多语言语音翻译准确度优于Gemini-2.5-Flash、GPT-4o-Audio-Preview、Voxtral Small-24B #AI同传 #Qwen3同传 #AI实时翻译
#AI同传
#Qwen3-LiveTranslate-Flash
#多模态翻译
#实时翻译
#阿里
分享
评论 0
0
AIGCLINK
2个月前
阿里的最新TTS:Qwen3-TTS,跨语言混合能力强,感觉基本无缝切换,比Qwen-TTS多了更多的语言和方言支持 同样能根据输入文本自动调整韵律、节奏和情绪变化 跨语言的音色一致性也比较好 中文支持普通话、北京、上海、四川、南京、陕西、闽南、天津、粤语 多语言支持英文、西班牙语、俄语、意大利语、法语、韩语、日语、德语、葡萄牙语 做有声书、AI客服、短视频配音的可以看看 #TTS #Qwen3TTS
#Qwen3-TTS
#跨语言
#语音合成
#阿里巴巴
#AI
分享
评论 0
0
AIGCLINK
3个月前
阿里应该会开源一个统一的角色动画与角色替换模型:Wan-Animate 基于Wan-I2V构建,给定一张角色图像和一段参考视频,复刻参考视频中人物的动作表情,生成保留原图背景的新视频 或者是,把照片里的人物植入到目标视频中,替换视频里原来的人物,它能智能补光,使之与场景环境无缝集成 #WanAnimate #Wan
阿里开源Wan-Animate,角色动画与替换技术引发热议· 10 条信息
#阿里
#Wan-Animate
#角色动画
#角色替换
#开源
分享
评论 0
0
AIGCLINK
3个月前
强,阿里通义刚刚又放出了一款深度研究智能体:通义DeepResearch,30B参数媲美OpenAI Deep Research Humanity's Last Exam得分32.9,BrowseComp得分45.3,xbench-DeepSearch得分75.0 128K上下文长度,擅长长周期、深度信息搜集,需要进行复杂问题分解、多步推理、信息搜集整合的场景可以用 其用智能体数据持续预训练的方式,来增强推理和规划能力;用on-policy强化学习方法,来确保决策能力的稳健性 两种推理模式: ReAct 模式,单模型逐步推理,轻量 Heavy 模式,多Agent并行IterResearch,再统一合成答案,测试时算力可扩展 目前这个智能体已经落地到高德地图的多日行程规划,以及法律助手通义法睿里了 #深度研究 #DeepResearch #tongyiDeepResearch
谷歌Deep Research:AI操作系统雏形?· 145 条信息
#通义DeepResearch
#深度研究智能体
#30B参数
#长周期信息搜集
#高德地图多日行程规划
分享
评论 0
0
AIGCLINK
3个月前
这些天正在给一家设计平台做AI生成网红陈设的产品,昨天看到字节的Seedream V4简直是雪中送碳,直接可以平替Nano Banana,之前用nano banana最头疼的算法备案问题可以解决了,赞一个👍
#AI生成
#网红陈设
#Seedream V4
#字节跳动
#算法备案
分享
评论 0
0
AIGCLINK
3个月前
Nano Banana+Seedance:0门槛创作任意故事视频,分别解决了图像一致性和视频一致性,2D视觉生成进入新阶段 视频内容: 1、Nano Banana:人物换背景、人物转动漫、多对象合并在一个照片里、AI换装、AI生策海报 2、Seedance:基于图片生成一致性较好的视频 3、AI生成视频实现逻辑:大模型LLM生成剧本和分镜内容,Nano Banana生成主角人物图片,基于分镜内容和主角人物照片,生成换场图片,然后基于seedance生成视频。 Nano Banana: Seedance: #banana #seedance #ai生成视频
AI视频井喷:Midjourney领跑,多模态混战· 337 条信息
#nano banana
#Seedance
#AI生成视频
#图像一致性
#视频一致性
分享
评论 0
0
AIGCLINK
3个月前
阿里马上要发一款语音到视频的模型,WAN 2.2-S2V,把说话声音变成高级影片 由音频驱动,基于视觉构建 开源 #语音生成AI视频
AI视频井喷:Midjourney领跑,多模态混战· 337 条信息
#阿里
#语音到视频模型
#WAN 2.2-S2V
#开源
#AI视频生成
分享
评论 0
0
AIGCLINK
3个月前
微软昨晚开源新模型:VibeVoice-1.5B TTS,可一次生成90分钟语音、多人对话 效果听起来质量很高,在说话人一致性和自然轮转上都非常不错 VibeVoice能生成90分钟连续语音,支持4个不同说话人,对像播客这种长篇音频内容生成比较实用 基于Qwen2.5-1.5B理解上下文和语义,有两个连续语音分词器,这两个分词器以 7.5Hz的超低帧率运行,在保证音频质量的同时,提高了计算效率,使得处理长序列成为可能 模型最终输出带 AI 声明水印 支持中/英文 MIT许可证 #TTS #VibeVoice
#微软
#VibeVoice-1.5B TTS
#开源模型
#语音生成
#多人对话
分享
评论 0
0
AIGCLINK
3个月前
酷,在Claude Code里给Gemini CLI套一个子智能体外壳,把大型代码库分析任务丢给Gemini的百万token窗口,既省Claude额度,又能拿到高质量结果 核心是利用不同模型优势来完成特定任务,大代码扫描用 Gemini,不耗Claude token, 并且IDE内一键完成,结果直接可读 子智能体自身不执行分析,只需管理Gemini CLI的输入和输出 整个教程演示了如何: 在Claude Code里新建一个子智能体 把这个子智能体配置成Gemini CLI包装器 用一句自然语言指令让Gemini扫描整个代码库 把Gemini的结果返回Claude,节省时间和token 教程把整套流程、示例命令和注意事项都列出来了,按图索骥来复现 #AI编程助手 #GeminiCLI #ClaudeCode
AI编程工具激战:Claude Code、Gemini Cli崛起· 1256 条信息
#AI编程助手
#Gemini CLI
#Claude Code
#代码库分析
#节省Token
分享
评论 0
0
AIGCLINK
4个月前
DeepSeek-V3.1昨天已经正式发布,总结下超详细版! 1、混合推理架构:同时支持思考模式与非思考模式 2、思考效率更高:比DeepSeek-R1-0528、DeepSeek-V3.1-Think能在更短时间内给出答案 3、Agent能力更强:通过Post-Training优化,其工具使用与智能体能力大幅提升 App和网页版,可以通过“深度思考”按钮,切换思考模式与非思考模式 API已同步升级,deepseek-chat对应非思考模式,deepseek-reasoner对应思考模式。API Beta接口支持了 strict模式的Function Calling 另外,已对Anthropic API格式支持,可以将DeepSeek-V3.1能力接入Claude Code框架 需要注意的是,DeepSeek-V3.1使用了UE8M0 FP8 Scale 的参数精度。另外,V3.1 对分词器及 chat template 进行了较大调整,与DeepSeek-V3 存在明显差异。建议有部署需求的用户仔细阅读新版说明文档 北京时间2025年9月6日凌晨起,DeepSeek开放平台API 接口调用价格进行调整 输入0.5元/百万token 输入12元/百万token 取消夜间时段优惠 在9月6日前,所有API仍按原价格政策计费 #DeepSeek #DeepSeekV31
深度学习模型升级引发AI能力大跃进,行业迎新变革· 143 条信息
#DeepSeek-V3.1发布
#混合推理架构
#Agent能力提升
#API价格调整
#UE8M0 FP8 Scale
分享
评论 0
0
AIGCLINK
4个月前
首届世界机器人运动会,有田径、搏击、足球赛、药品分拣分装、跳远、舞蹈、武术等,这个赛事未来估计会有更多的竞赛类目 #机器人 #AI
中国机器人队夺得世界杯历史首冠,震撼全球!· 30 条信息
#世界机器人运动会
#机器人
#竞赛
#田径
#足球赛
分享
评论 0
0
AIGCLINK
4个月前
字节放出了一款具备长期记忆能力的多模态智能体:M3-Agent 可以实时处理视觉和听觉输入,并转化为长期记忆,使其不局限于单一模态的信息 存储情景记忆,还可以从中提取和积累语义记忆 核心是M3-Agent的记忆系统以实体为中心,把与同一实体相关的所有模态信息(比如一个人的面部、声音、相关知识)连起来,形成图谱结构,这就可以使其能更深入一致的理解环境 支持多轮迭代推理,根据需要从长期记忆中检索相关信息来辅助推理过程 在基准测试中,尤其在需要长期记忆和跨模态推理的任务上,M3-Agent表现优秀 #M3Agent #AIagent
#m3-agent
#多模态智能体
#长期记忆
#跨模态推理
#AI
分享
评论 0
0
AIGCLINK
4个月前
刚刚,智谱直播开源其最新视觉模型:GLM-4.5V,多模态,支持图像、视频输入 GLM-4.5V 基于智谱 AI的下一代旗舰文本基础模型 GLM-4.5-Air底座(106B 参数,12B 有源),延续了 GLM-4.1V-Thinking 的技术路线,在 42 个公开的视觉语言基准测试中取得了同规模模型中的 SOTA 性能,涵盖了图像、视频和文档理解等常见任务,以及 GUI 代理操作。 实现了一下能力: 1、图像推理 (场景理解、复杂多图像分析、空间识别) 2、视频理解 (长视频分割与事件识别) 3、GUI 任务 (屏幕阅读、图标识别、桌面操作协助) 4、复杂图表及长文档解析 (研究报告分析、信息提取) 5、精确的视觉元素定位 价格: API 输入2元/输出6元(百万tokens) 速度:60-80 tokens/s 预训练→SFT→RL三段训练 - SFT 引入显式COT - 强化学习阶段阶段结合 RLVR & RLHF - 优化了 STEM、多模态、Agent 任务 #zai #智谱 #glm45 #glm45v
智谱直播发布全球最佳视觉模型GLM-4.5V,挑战AI视觉领域极限· 21 条信息
#智谱AI
#GLM-4.5V
#多模态视觉模型
#开源
#图像视频理解
分享
评论 0
0
AIGCLINK
4个月前
下午去了趟亦庄的世界机器人大会,人挤人太多人了,尤其是人形机器人展区全是人,而落地价值比较大的工业机器人反而人比较少。 另外一点就是感觉人形机器人泡沫吹的太大了,到明年初如果没有二级市场回血估计泡泡会破。 #具身智能 #宇树科技
澎湃AI新闻合辑:未来科技与社会热点交锋· 112 条信息
#世界机器人大会
#人形机器人泡沫
#亦庄
#工业机器人
#二级市场回血
分享
评论 0
0
AIGCLINK
4个月前
给定一张平面2D图和提示词,claude使用blender-MCP 工具来生成 3D 模型,结合ThreeJS 或任何应用程序均可无缝使用它们。 例如:给一张玩具枪的图片,让claude使用blender-mcp生成其3d模型,然后导出该3d模型结合ThreeJS生成的动态射击游戏网页。 github: #blendermcp #ThreeJS
AI编程工具激战:Claude Code、Gemini Cli崛起· 1256 条信息
#3D模型
#Blender-MCP
#ThreeJS
#Claude
#玩具枪
分享
评论 0
0
AIGCLINK
4个月前
OpenAI GPT-5已发布,推理、编程能力更强,速度更快,400K上下文,可以免费使用! 以下对它的推理、编程能力、上下文窗口、API定价以及其他更新整理汇总,一文看全GPT-5 首先GPT-5是一个统一模型,它会自动判断何时需要更复杂的推理,无需手动或自动切换模型 性能表现: 在SWE-bench Verified和Aider Polyglot上,思考模式下均超过了o3 数学表现,在AIME 2025上, GPT-5 Pro使用Python作为工具,准确率为100% 在可靠性和准确性上比之前的模型有提升,幻觉率和错误率更低 具备超强工具使用能力,在Tau上准确率达到了97% GPT-5擅长数学、物理、法律、医学等多个领域;可以软件按需定制,根据需求描述从零编写完整程序;可以以交互的方式来解释复杂的概念,2分钟内生成约400行代码 其他更新: 写作能力:优化了写作能力,写作质量有提升,能更好的理解语境细节 语音功能增强:声音更自然更智能,免费用户可以连续聊天数小时,高级用户几乎无限制,还可以自定义 个性化:可以自定义聊天框的颜色、研究个性化预览、记忆力增强、集成Gmail、Google日历等 开发者可通过API使用这三个模型 GPT-5 GPT-5 mini GPT-5 nano GPT-5,功能最强大版,适合处理复杂的编程以及需要模型自主行动的智能体任务 mini,更快更具成本效益版,适合需求明确、范围清晰的任务 nano,速度最快、最具成本效益版 上下文窗口: 支持400K上下文,128K token的输出 文本、图像多模态输入 具备性价比: GPT-5 输入,1.25美元 输出,10美元 缓存输入,0.125美元 GPT-5 mini 输入:0.25美元;输出:2.00美元 GPT-5 nano 输入:0.05美元;输出:0.40美元 GPT-5现在已向免费、Plus、Pro和团队用户开放,下周向教育和企业用户开放,免费用户达到限制后将会切换到 GPT-5 mini,Pro用户可无限制使用 微软的产品Microsoft 365 Copilot、Microsoft Copilot、 GitHub Copilot 、Visual Studio Code、Azure AI Foundry等都已可用GPT-5 #chatgpt5 #GPT5 #OpenAIGPT5
OpenAI新德里发布会:ChatGPT语音翻译功能引发热议· 869 条信息
#GPT-5发布
#推理编程能力提升
#400K上下文
#API开放免费使用
#多领域应用
分享
评论 0
0
AIGCLINK
4个月前
阿里也在搞AI眼镜,可能会在年内发布,支持高德导航、淘宝比价、支付宝支付、飞猪商旅提醒等 这款眼镜具备通义千问大模型能力,与夸克最新AI搜索/问答技术 可以高德近眼导航,在骑行、步行场景下导航指引 据说眼镜配了5个麦克风加1个骨传导阵列设计,在噪声环境下也可以准确唤醒,支持口音、方言 #AI眼镜 #阿里AI眼镜
#AI眼镜
#阿里
#通义千问
#高德导航
#年内发布
分享
评论 0
0
AIGCLINK
4个月前
刚刚,阿里开源了其最强代码模型:Qwen3-Coder-480B-A35B-Instruct,性能媲美Claude Sonnet4 480B参数,激活参数35B,MoE, 原生支持 256K上下文,通过YaRN可扩展到1M 超强代码、Agent能力 另外,还有一个Qwen Code,基于Gemini CLI修改的CLI工具,用来增强Qwen3‑Coder系列模型的解析器和工具支持 #Qwen3Coder #代码模型
#Qwen3-Coder
#代码模型
#开源
#256K上下文
#Agent能力
分享
评论 0
0
AIGCLINK
5个月前
官网:
分享
评论 0
0
AIGCLINK
5个月前
腾讯的AI IDE也出来了:CodeBuddy IDE,全栈AI IDE 能通过自然语言对话完成产品设计、开发以及部署全流程 支持Claude、混元等主流模型 提供自然语言生成、图像化生成以及组件化生成三种原型设计方式 内置Figma功能,支持多端代码生成与后端服务自动配置 #AIIDE #CodeBuddyIDE
AI编程工具激战:Claude Code、Gemini Cli崛起· 1256 条信息
#AI IDE
#CodeBuddy IDE
#腾讯
#全栈AI
#自然语言交互
分享
评论 0
0
AIGCLINK
5个月前
Trae solo:字节发布首个AI上下文工程师,为每个开发人员提供10 倍的生产力、将 PM 转变为产品构建者、让设计师无需编写代码即可进行构建,超越manus和lovable blog: #trae #字节 #solo #manus #lovable
#字节
#AI
#上下文工程师
#产品构建者
#无代码构建
分享
评论 0
0
上一页
1
2
3
4
下一页
个人主页
通知
我的投稿
我的关注
我的拉黑
我的评论
我的点赞