时政
财经
科技
虚拟货币
其他
登录
AIGCLINK
关注
统计数据
49
文章
0
粉丝
0
获赞
97
阅读
热门文章
1
TechFlow 深潮 发布的文章:近期教育领域的变化引发了广泛讨论,我认为教育改革应该更加注重学生的个性化发展和创新能...
145
32
AIGCLINK
1天前
Nano Banana+Seedance:0门槛创作任意故事视频,分别解决了图像一致性和视频一致性,2D视觉生成进入新阶段 视频内容: 1、Nano Banana:人物换背景、人物转动漫、多对象合并在一个照片里、AI换装、AI生策海报 2、Seedance:基于图片生成一致性较好的视频 3、AI生成视频实现逻辑:大模型LLM生成剧本和分镜内容,Nano Banana生成主角人物图片,基于分镜内容和主角人物照片,生成换场图片,然后基于seedance生成视频。 Nano Banana: Seedance: #banana #seedance #ai生成视频
AI视频井喷:Midjourney领跑,多模态混战· 128 条信息
#nano banana
#Seedance
#AI生成视频
#图像一致性
#视频一致性
分享
评论 0
0
AIGCLINK
1周前
阿里马上要发一款语音到视频的模型,WAN 2.2-S2V,把说话声音变成高级影片 由音频驱动,基于视觉构建 开源 #语音生成AI视频
AI视频井喷:Midjourney领跑,多模态混战· 128 条信息
#阿里
#语音到视频模型
#WAN 2.2-S2V
#开源
#AI视频生成
分享
评论 0
0
AIGCLINK
1周前
微软昨晚开源新模型:VibeVoice-1.5B TTS,可一次生成90分钟语音、多人对话 效果听起来质量很高,在说话人一致性和自然轮转上都非常不错 VibeVoice能生成90分钟连续语音,支持4个不同说话人,对像播客这种长篇音频内容生成比较实用 基于Qwen2.5-1.5B理解上下文和语义,有两个连续语音分词器,这两个分词器以 7.5Hz的超低帧率运行,在保证音频质量的同时,提高了计算效率,使得处理长序列成为可能 模型最终输出带 AI 声明水印 支持中/英文 MIT许可证 #TTS #VibeVoice
#微软
#VibeVoice-1.5B TTS
#开源模型
#语音生成
#多人对话
分享
评论 0
0
AIGCLINK
1周前
酷,在Claude Code里给Gemini CLI套一个子智能体外壳,把大型代码库分析任务丢给Gemini的百万token窗口,既省Claude额度,又能拿到高质量结果 核心是利用不同模型优势来完成特定任务,大代码扫描用 Gemini,不耗Claude token, 并且IDE内一键完成,结果直接可读 子智能体自身不执行分析,只需管理Gemini CLI的输入和输出 整个教程演示了如何: 在Claude Code里新建一个子智能体 把这个子智能体配置成Gemini CLI包装器 用一句自然语言指令让Gemini扫描整个代码库 把Gemini的结果返回Claude,节省时间和token 教程把整套流程、示例命令和注意事项都列出来了,按图索骥来复现 #AI编程助手 #GeminiCLI #ClaudeCode
AI编程工具激战:Claude Code、Gemini Cli崛起· 650 条信息
#AI编程助手
#Gemini CLI
#Claude Code
#代码库分析
#节省Token
分享
评论 0
0
AIGCLINK
1周前
DeepSeek-V3.1昨天已经正式发布,总结下超详细版! 1、混合推理架构:同时支持思考模式与非思考模式 2、思考效率更高:比DeepSeek-R1-0528、DeepSeek-V3.1-Think能在更短时间内给出答案 3、Agent能力更强:通过Post-Training优化,其工具使用与智能体能力大幅提升 App和网页版,可以通过“深度思考”按钮,切换思考模式与非思考模式 API已同步升级,deepseek-chat对应非思考模式,deepseek-reasoner对应思考模式。API Beta接口支持了 strict模式的Function Calling 另外,已对Anthropic API格式支持,可以将DeepSeek-V3.1能力接入Claude Code框架 需要注意的是,DeepSeek-V3.1使用了UE8M0 FP8 Scale 的参数精度。另外,V3.1 对分词器及 chat template 进行了较大调整,与DeepSeek-V3 存在明显差异。建议有部署需求的用户仔细阅读新版说明文档 北京时间2025年9月6日凌晨起,DeepSeek开放平台API 接口调用价格进行调整 输入0.5元/百万token 输入12元/百万token 取消夜间时段优惠 在9月6日前,所有API仍按原价格政策计费 #DeepSeek #DeepSeekV31
深度学习模型升级引发AI能力大跃进,行业迎新变革· 55 条信息
#DeepSeek-V3.1发布
#混合推理架构
#Agent能力提升
#API价格调整
#UE8M0 FP8 Scale
分享
评论 0
0
AIGCLINK
2周前
首届世界机器人运动会,有田径、搏击、足球赛、药品分拣分装、跳远、舞蹈、武术等,这个赛事未来估计会有更多的竞赛类目 #机器人 #AI
中国机器人队夺得世界杯历史首冠,震撼全球!· 13 条信息
#世界机器人运动会
#机器人
#竞赛
#田径
#足球赛
分享
评论 0
0
AIGCLINK
2周前
字节放出了一款具备长期记忆能力的多模态智能体:M3-Agent 可以实时处理视觉和听觉输入,并转化为长期记忆,使其不局限于单一模态的信息 存储情景记忆,还可以从中提取和积累语义记忆 核心是M3-Agent的记忆系统以实体为中心,把与同一实体相关的所有模态信息(比如一个人的面部、声音、相关知识)连起来,形成图谱结构,这就可以使其能更深入一致的理解环境 支持多轮迭代推理,根据需要从长期记忆中检索相关信息来辅助推理过程 在基准测试中,尤其在需要长期记忆和跨模态推理的任务上,M3-Agent表现优秀 #M3Agent #AIagent
#m3-agent
#多模态智能体
#长期记忆
#跨模态推理
#AI
分享
评论 0
0
AIGCLINK
3周前
刚刚,智谱直播开源其最新视觉模型:GLM-4.5V,多模态,支持图像、视频输入 GLM-4.5V 基于智谱 AI的下一代旗舰文本基础模型 GLM-4.5-Air底座(106B 参数,12B 有源),延续了 GLM-4.1V-Thinking 的技术路线,在 42 个公开的视觉语言基准测试中取得了同规模模型中的 SOTA 性能,涵盖了图像、视频和文档理解等常见任务,以及 GUI 代理操作。 实现了一下能力: 1、图像推理 (场景理解、复杂多图像分析、空间识别) 2、视频理解 (长视频分割与事件识别) 3、GUI 任务 (屏幕阅读、图标识别、桌面操作协助) 4、复杂图表及长文档解析 (研究报告分析、信息提取) 5、精确的视觉元素定位 价格: API 输入2元/输出6元(百万tokens) 速度:60-80 tokens/s 预训练→SFT→RL三段训练 - SFT 引入显式COT - 强化学习阶段阶段结合 RLVR & RLHF - 优化了 STEM、多模态、Agent 任务 #zai #智谱 #glm45 #glm45v
智谱直播发布全球最佳视觉模型GLM-4.5V,挑战AI视觉领域极限· 3 条信息
#智谱AI
#GLM-4.5V
#多模态视觉模型
#开源
#图像视频理解
分享
评论 0
0
AIGCLINK
3周前
下午去了趟亦庄的世界机器人大会,人挤人太多人了,尤其是人形机器人展区全是人,而落地价值比较大的工业机器人反而人比较少。 另外一点就是感觉人形机器人泡沫吹的太大了,到明年初如果没有二级市场回血估计泡泡会破。 #具身智能 #宇树科技
澎湃AI新闻合辑:未来科技与社会热点交锋· 59 条信息
#世界机器人大会
#人形机器人泡沫
#亦庄
#工业机器人
#二级市场回血
分享
评论 0
0
AIGCLINK
3周前
OpenAI GPT-5已发布,推理、编程能力更强,速度更快,400K上下文,可以免费使用! 以下对它的推理、编程能力、上下文窗口、API定价以及其他更新整理汇总,一文看全GPT-5 首先GPT-5是一个统一模型,它会自动判断何时需要更复杂的推理,无需手动或自动切换模型 性能表现: 在SWE-bench Verified和Aider Polyglot上,思考模式下均超过了o3 数学表现,在AIME 2025上, GPT-5 Pro使用Python作为工具,准确率为100% 在可靠性和准确性上比之前的模型有提升,幻觉率和错误率更低 具备超强工具使用能力,在Tau上准确率达到了97% GPT-5擅长数学、物理、法律、医学等多个领域;可以软件按需定制,根据需求描述从零编写完整程序;可以以交互的方式来解释复杂的概念,2分钟内生成约400行代码 其他更新: 写作能力:优化了写作能力,写作质量有提升,能更好的理解语境细节 语音功能增强:声音更自然更智能,免费用户可以连续聊天数小时,高级用户几乎无限制,还可以自定义 个性化:可以自定义聊天框的颜色、研究个性化预览、记忆力增强、集成Gmail、Google日历等 开发者可通过API使用这三个模型 GPT-5 GPT-5 mini GPT-5 nano GPT-5,功能最强大版,适合处理复杂的编程以及需要模型自主行动的智能体任务 mini,更快更具成本效益版,适合需求明确、范围清晰的任务 nano,速度最快、最具成本效益版 上下文窗口: 支持400K上下文,128K token的输出 文本、图像多模态输入 具备性价比: GPT-5 输入,1.25美元 输出,10美元 缓存输入,0.125美元 GPT-5 mini 输入:0.25美元;输出:2.00美元 GPT-5 nano 输入:0.05美元;输出:0.40美元 GPT-5现在已向免费、Plus、Pro和团队用户开放,下周向教育和企业用户开放,免费用户达到限制后将会切换到 GPT-5 mini,Pro用户可无限制使用 微软的产品Microsoft 365 Copilot、Microsoft Copilot、 GitHub Copilot 、Visual Studio Code、Azure AI Foundry等都已可用GPT-5 #chatgpt5 #GPT5 #OpenAIGPT5
OpenAI新德里发布会:ChatGPT语音翻译功能引发热议· 392 条信息
#GPT-5发布
#推理编程能力提升
#400K上下文
#API开放免费使用
#多领域应用
分享
评论 0
0
AIGCLINK
1个月前
阿里也在搞AI眼镜,可能会在年内发布,支持高德导航、淘宝比价、支付宝支付、飞猪商旅提醒等 这款眼镜具备通义千问大模型能力,与夸克最新AI搜索/问答技术 可以高德近眼导航,在骑行、步行场景下导航指引 据说眼镜配了5个麦克风加1个骨传导阵列设计,在噪声环境下也可以准确唤醒,支持口音、方言 #AI眼镜 #阿里AI眼镜
#AI眼镜
#阿里
#通义千问
#高德导航
#年内发布
分享
评论 0
0
AIGCLINK
1个月前
刚刚,阿里开源了其最强代码模型:Qwen3-Coder-480B-A35B-Instruct,性能媲美Claude Sonnet4 480B参数,激活参数35B,MoE, 原生支持 256K上下文,通过YaRN可扩展到1M 超强代码、Agent能力 另外,还有一个Qwen Code,基于Gemini CLI修改的CLI工具,用来增强Qwen3‑Coder系列模型的解析器和工具支持 #Qwen3Coder #代码模型
#Qwen3-Coder
#代码模型
#开源
#256K上下文
#Agent能力
分享
评论 0
0
AIGCLINK
1个月前
官网:
分享
评论 0
0
AIGCLINK
1个月前
Trae solo:字节发布首个AI上下文工程师,为每个开发人员提供10 倍的生产力、将 PM 转变为产品构建者、让设计师无需编写代码即可进行构建,超越manus和lovable blog: #trae #字节 #solo #manus #lovable
#字节
#AI
#上下文工程师
#产品构建者
#无代码构建
分享
评论 0
0
AIGCLINK
1个月前
构建Manus的经验教训,6个经典的上下文工程的方法论值得学习: 1、提升KV缓存命中率降低token成本。 2、前缀提示词中的tool,在不同轮次对话中,不用的tool部分采用遮盖非移除,这样提升kv cache的命中率。 3、使用文件系统作为上下文,例如,只要保留URL,网页内容就可以从上下文中移除,保存在外部文件系统中;如果沙盒中仍然保留文档路径,则可以省略文档内容。这使得Manus能够缩短上下文长度,而不会永久丢失信息。 4、在不同轮次的context中,通过不断重写todo待办事项列表,Manus将其目标复述到上下文的末尾,提升全局注意力控制。 5、改善Agent行为最有效的方法:将错误的尝试保留在上下文中。 6、有效避免agent降智的解决方法是:增加多样性,不要让agent陷入少样本学习的降智状态。 blog: #manus #agent #contextengineering
#上下文工程
#KV缓存
#token成本
#文件系统
#Manus
分享
评论 0
0
AIGCLINK
1个月前
kimi沉寂了很久,上周五晚上发布了1T参数的开源模型k2,热度快赶上当年deepseek的热度了? 支持MCP调用、超强代码能力和agent能力的开源模型来了,可替代claude成为claude code底座模型,同时kimi+claude code=上下文工程的国产之光,霸榜huggingface 实测了下最大的亮点有几个: 1、兼容claude code,能够充当claude code的底座模型,有了它以后不用再科学上网用cc了,兼容claude的接口标准,也就能够一下子承接所有的支持claude的项目; 2、最大的区别于deepseek亮点:工具和mcp的调用能力做了专项训练,填补了国内模型圈和国际开源模型圈的工具调用能力和code能力双重强的空白,也算是个好的开端,不过相比于claude编程能力还是有差距。 github: #kimi #k2 #claudecode #deepseek #huggingface
分享
评论 0
0
AIGCLINK
1个月前
续任新一年的微软MVP,未来继续一起为AI行业做build
分享
评论 0
0
AIGCLINK
1个月前
GROK 4一文看全版: 两个型号:Grok 4和Grok 4 Heavy 推理模型 比Grok 2训练算力增加了100倍 256K上下文,略大于o3和Sonnet 4 Grok 4Humanity's Last Exam得分为25.4%,Gemini 2.5 Pro为21.6%;使用工具后的Grok 4 Heavy得分44.4%,远超Gemini 2.5 Pro的26.9% 在ARC AGI 2基准上为15.9%,快达到了Claude Opus 4的两倍 升级了语音模式: 语气更流畅自然、延迟低,响应速度更快 API新增内置搜索工具 定价: 百万token输入3 美元,百万token输出15 美元,跟Sonnet 4相同,略高于o3和Gemini 2.5 Pro 但上下文窗口超过128k后,价格会翻倍 #GROK4 #Grok4Heavy
分享
评论 0
0
AIGCLINK
1个月前
博客: HF:
分享
评论 0
0
AIGCLINK
1个月前
腾讯竟上线了微信支付MCP,意味着智能体可以挣钱了! 通过微信支付MCP工具生成付款二维码,就可以在智能体中实现,用户扫码,验证付款,提供服务的完整服务流程了 微信支付MCP目前可在腾讯元器智能体平台使用 微信支付MCP的三个功能: 1、生成支付二维码 2、生成预下单ID 3、查询订单支付状态 腾讯给了一套【微信支付MCP】使用场景模板,可以在智能体中设置“赞赏”或“打赏”,然后解锁下一步回答 目前可以使用体验版体验,正式版需要申请,地址见下条 #微信支付MCP #腾讯MCP #MCP
分享
评论 0
0
AIGCLINK
1个月前
体验地址: 课堂场景
分享
评论 0
0
AIGCLINK
1个月前
Cluely类AI工具彻底火了,又出来一个Proactor,下沉到场景,让AI能力从被动走向主动 Proactor类似一个贴心伙伴,它可以自我感知、思考,并采取行动 比如说,有人想骗你,Proactor就可以核实信息指出错误 可以在课堂上自动获取实时笔记、总结、扩展相关知识 同样适用于对话场景,甚至还可以“劝架” #Cluely #Proactor #AI助手
分享
评论 0
0
AIGCLINK
1个月前
kyutai_labs把它的TTS开源了:Kyutai TTS,支持文本流式传输、低延迟 使用L40S GPU,同时处理32个请求,延迟为 350毫秒 除了生成音频,Kyutai TTS 还会输出单词的确切时间戳 英语和法语的WER分别为2.82和3.29,说话者相似度为77.1%和78.7% 能处理长文章,目前支持英语和法语 #TTS #KyutaiTTS
OpenAI新德里发布会:ChatGPT语音翻译功能引发热议· 392 条信息
#Kyutai TTS
#开源
#文本流式传输
#低延迟
#英语和法语
分享
评论 0
0
AIGCLINK
2个月前
DXT:正式开启MCP生态的APP Store模式,dxt明确了MCP一键安装规范,将MCP服务转化为一键安装的扩展应用,相当于google浏览器的扩展应用,正式开启MCP零门槛使用的新时代。 dxt可将mcp服务转换为可安装的mcp应用,生成mcp扩展应用相当于chrom的扩展应用,只不过是mcp浏览器替代了传统浏览器,后期也会衍生出mcp扩展应用市场,使用mcp的门槛一下降到0了,每个人都可像安装chrom插件一样在mcp客户端安装mcp扩展,点点点即可 github: (视频错误说明:dtx——dxt) #dxt #mcp生态 #mcp服务 #mcp商店
分享
评论 0
0
AIGCLINK
2个月前
牛,浙江省肿瘤医院与阿里等研发了一款可用于大规模早期胃癌筛查的模型:GRAPE,该模型在一位肺癌随访患者中提前6个月检测出了胃癌 模型使用常规的非增强CT影像进行胃癌筛查,通过分析CT片子,来识别出疑似胃癌的高危人群 实验测试,GRAPE尤其在检测早期胃癌方面表现比放射科医生好,放射科医生使用GRAPE的辅助后,诊断准确性有了显著提高 研究人员使用GRAPE分析了两家医院的真实CT数据,其能有效识别胃癌高危人群,并能在无症状患者中检测出胃癌,敏感性和特异性比较高 #AI医疗 #AI胃癌诊断模型 #GRAPE
分享
评论 0
0
1
2
下一页
个人主页
通知
我的投稿
我的关注
我的拉黑
我的评论
我的点赞