AIGCLINK

统计数据

121

文章

0

粉丝

0

获赞

2601

阅读

3个月前

2026年已到来，AI新范式也正在1%少数人身上发生，26年新的机会在哪里如何把握，为了让国内AIGC开发者更好的了解全球最新AI趋势，AIGCLINK联合多家AI社区、媒体共同组织了2026年AIGC中国开发者大会，还将发起芯片适配联盟、开源AI项目开发者双百扶持计划、AI公益助残计划等，将为vibe coding创作者提供一个商业化变现通道，期待1月17号相聚北京望京共探2026年AI发展新趋势： #aigc开发者大会 #aigclink #芯片适配联盟

3个月前

稚晖君刚刚发布了全身力控的小尺寸个人人形机器人：上纬启元Q1，高0.8米，一个背包即能打包带走 Q1是在保持全尺寸人形机器人能力的前提下实现的小尺寸和全身力控，其关键在于QDD关节的微型化，做到了比鸡蛋还小的极限尺寸 Q1能被折叠放进背包，便携性很强 #人形机器人 #上纬启元Q1 #AI机器人

3个月前

一款本地化AI聊天记录分析器：ChatLab，把导出的微信、QQ等聊天记录丢进去，它就可以深挖聊天内容可以用来做社群运营分析，比如群活跃度检测、KOL识别、热点话题捕捉等等集成了10+Function Calling 工具，可动态组合，来辅助总结、搜人、找关键词自带解析器，微信、QQ、WhatsApp、Telegram等可以标准化成统一格式流式计算与多线程并行架构，百万条聊天记录也能快速响应 #AI聊天记录分析器 #ChatLab

3个月前

阿里新开源了一款主打超长上下文+记忆管理的模型：QwenLong-L1.5，性能较Qwen3-30B-A3B-Thinking平均提升9.9分相当于可以把整本手册、整份财报、法律条文一次性丢进去，让它跨章节问答、写总结、抽条款 QwenLong-L1.5基于Qwen3-30B-A3B-Thinking构建，在此基础上引入了记忆机制，使其可以处理远超物理上下文窗口长度的任务 L1.5模型+长上下文推理与记忆管理的后训练方案全套开源，这套方案统一了数据合成、训练方法和智能体架构 #QwenLongL15 #长上下文模型

3个月前

博客：

3个月前

项目代码：

3个月前

这个好，手写公式秒变可编译LaTeX：TeXPen，全程在浏览器本地完成比如，课堂上平板+投影，边写边出LaTeX，实时投屏，方便多了基于WebGPU+WebAssembly，模型跑在本地电脑上模型用的OleehyO/TexTeller 298 M，首次打开自动下载并缓存，以后断网也能用 #公式转LaTeX #TeXPen

3个月前

基于nano banana pro的一个原生Vibe PPT工具：banana-slides Vibe PPT用来解决有内容却做不出能上台的图的问题，解决以往AI PPT预设模版风格少/单一问题可以用想法、大纲、页面描述三种方式生成完整PPT 支持上传任意模板/素材，PDF/Docx/MD/Txt等文件皆可，自动识别文本中的关键点、图片链接和图表信息可以上传参考图片或模板定制风格，可自然语言局部修改对于办公快速出汇报PPT，老师出课程教案，用AI生PPT打灵感，都比较方便 #AIppt #PPT生成工具

3个月前

千问移动端更新，新增了手机端办公/学习能力，感觉还比较实用，等于日常+学习在手机上闭环了一句话即出PPT、答题/批改、文档，它还有一个文库，把“找资料-读资料-出PPT-重点讲解”的这种知识生产的耗时过程给压缩了适合老师出课件或者个性化学习使用比如说，老师可以一键把课本章节变成课堂课件；学生拍照一键生成步骤+讲解，做查漏补缺 PPT生成支持文档、图片、语音三类输入，这个就比较方便，比如开会路上突发某个想法，直接语音AI生成PPT，会议室投屏，实现灵感零损耗 AI文档功能，它可以对话成稿，就是说它可以把对话内容自动转成主题清晰、结构合理并排版的Word文档支持网页解析，公众号文章、外语网站翻译为中文并总结 #AIPPT #AI答题 #千问

3个月前

腾讯把WeKnora升级到了：WeKnora2.0，RAG+Agent双驱动，引入ReACT架构，AI可以像人一样边思考、边行动、边调整的动态完成复杂任务就是说把PDF、Word、图片等资料丢进去，它能自动建知识库、做问答、写报告，还能上网查最新信息这个适合需要大量阅读+深度思考+结构化输出的复杂任务，比如说做行业调研、产品分析 WeKnora作为微信对话开放平台核心框架，它的智能问答能力是可以零代码无缝集成到公众号、小程序等生态里的，这个比较方便新增了FAQ知识库类型，可与现有文档知识库形成互补 FAQ知识库专用于管理“问题-答案”对形式的结构化知识，适合沉淀标准操作流程、产品使用指南、政策咨询等高频查询内容支持通过MCP，内置uvx、npx启动工具，支持多种传输方式内置DuckDuckGo获取实时信息 #WeKnora #微信公众号agent

3个月前

Notebook LM的本地开源复现款：open-notebook，最近上星非常猛支持OpenAI、Anthropic、Ollama、LM Studio等16+模型商，提供嵌入、语音转文本、文本转语音等功能播客发言人可以1-4 个，可以自定义配置支持导入PDF、视频、音频、网页、Office等多种模态内容 #AI播客 #NotebookLM

4个月前

Nano Banana果然强大，以身试法，看到这个照片大家知道这个能干啥吧，果然强大😿#nanobanana

nanobanana平台助力个人形象照生成，专业形象照引发热议· 107 条信息

#nano banana #以身试法 #强大 #负面 #恶搞

4个月前

折腾了几个礼拜，昨晚总算看到起量正常不报错了，起量才知道vllm有很多坑要踩，今天600w TPM走起，距离打满还差99% #vllm

#vLLM #起量 #TPM #技术 #乐观

4个月前

微软给的一套AI呼叫中心解决方案，Azure+OpenAI，扔一个API请求或直接拨号，AI语音客服即可接/打电话、记录报修、面试预约等可以呼入、呼出实时语音对话，支持打断、静音检测、多语言TTS/ASR、定制AI语音通话结束后即生成一个网页报告写工单可自定义字段，比如时间、地点、其他信息等可以定制任务流、知识库管理、定制AI语气风格 #AI语音客服

OpenAI新德里发布会：ChatGPT语音翻译功能引发热议· 869 条信息

#AI语音客服 #微软Azure #OpenAI #呼叫中心解决方案 #自动化

4个月前

李飞飞World Labs的生成式多模态世界模型：Marble 刚刚已发布，一张图片/视频/文本提示/3D布局，即生成高保真3D世界单图、文本、多视角图、短视频、粗糙3D块都能当prompt 生成之后还能二次创作 AI原生笔刷可以局部删改、换材质、换风格、换结构可以一键扩世界也可以多个小场景拼接能导出高斯溅射、三角网格，也可渲染成带精确相机轨道的视频，在视频后处理环节自动添加烟、火焰、流水等动态元素，同时去除画面瑕疵也就是说，做游戏的能直接拖进Unity/Unreal 当关卡；影视人可导出带相机轨道的视频当预演 #3D生成 #AI3D #Marble

AI视频井喷：Midjourney领跑，多模态混战· 337 条信息

#李飞飞 #World Labs #生成式多模态 #3D世界模型Marble #AI辅助创作

5个月前

阿里刚刚发了一个智能简历解析系统：SmartResume，直接把PDF/图片/Office文档简历变成结构化数据 HR部门的手动录入工作可以直接秒级完成了系统融合了OCR与PDF元数据完成文本提取，结合版面检测重建阅读顺序，通过LLM将内容转换为结构化字段能够提取基本信息、工作经历、教育背景等结构化信息模型用的微调版Qwen3-0.6B，版面检测模型用的YOLOv10 可API及本地模型部署 #简历提取工具 #SmartResume

#阿里 #SmartResume #智能简历解析 #Qwen3-0.6B #YOLOv10

5个月前

一句话生成Excalidraw手绘风的专业图表工具：Smart Excalidraw 可以生成流程图、架构图、ER图20+种图表，可以智能匹配合适的图表类型，对研发、产品经理来说简直是神器智能箭头优化算法，自动计算最佳连接点，来确保图表有序、逻辑清晰，避免线条交叉输出的是标准Excalidraw格式，想微调颜色、位置、加图标随便拖 #AI图表生成 #SmartExcalidraw

#AI图表生成 #SmartExcalidraw #手绘风图表 #流程图 #架构图

5个月前

Anthropic官方给出的【如何通过代码执行+MCP，来构建更高效的AI智能体】，把token消耗从15万降到了2千，时间/费用节省98% 随着连接工具的增多，直接工具调用方式导致的Token消耗过高、智能体效率降低问题核心思想，把MCP服务器视为代码API，非直接的工具调用，让智能体编写代码来与MCP服务器交互来增强智能体上下文效率、降低成本、减少延迟，也可以增强智能体处理复杂任务的能力，同时兼顾隐私工具发现机制，把MCP工具组织成文件系统结构，比如，servers/google-drive/getDocument.ts，智能体可以通过探索文件系统来按需发现和加载所需的工具定义，无需一次性加载所有工具代码编排，智能体不再直接调用工具，而是生成一段代码比如TypeScript，这段代码会调用封装好的函数来与MCP工具交互，比如说，将“从Google Drive下载会议记录并附加到Salesforce线索”的任务，转化为一段包含 gdrive.getDocument() 和 salesforce.updateRecord() 调用的代码隐私保护上，中间结果默认保留在执行环境中，只有明确记录或返回的数据才会进入模型的上下文对于敏感数据，比如个人身份信息 PII，MCP客户端可以在数据到达模型之前对其进行脱敏，并在需要时再进行反脱敏，确保敏感信息永远不会直接暴露给模型 #MCP #AIagent

#多智能体之争：Anthropic生态VS单智能体· 81 条信息

#AI智能体 #MCP服务器 #代码编排 #Token消耗 #隐私保护

5个月前

强，人民币不到150元手搓了一套AI导盲眼镜，可以盲道导航、过马路辅助、物品识别、实时语音交互，方案开源基于ESP32，加AI模型+硬件，实现“帮我过马路”，系统就会实时播报“前方3米有斑马线，现在绿灯，可以通行” 功能可以扩展，比如新增“找公交站”功能，在 workflow_blindpath.py加代码即可其他人也能同时用手机或电脑以第一视角实时看，远程协助盲道导航，基于YOLO实时识别盲道、智能语音引导、识别障碍物并规划避障路线、识别急转弯并提前提醒过马路辅助，实时检测斑马线位置方向、识别红绿灯、引导用户对准斑马线中心、绿灯时语音提示可以通行物品识别与查找，智能物品搜索、使用YOLO-E开放词汇检测+ByteTrack 追踪、结合MediaPipe手部检测引导手部靠近物品、检测手部握持动作确认已拿到实时语音交互，基于阿里云DashScope Paraformer实时语音识别、多模态对话项目来自B站AI研究室-帆哥 #AI导盲眼镜 #AI导盲

#AI导盲眼镜 #盲人辅助 #开源项目 #B站帆哥 #实时语音交互

5个月前

强，一款多Agent舆情分析系统：BettaFish微舆，用自然语言提出需求，这就可以自动分析国内外30+主流社媒相当于“零门槛”有了个情报智库，一句话拿到全景舆情报告全域采集，爬虫集群同时抓取微博、小红书、抖音、快手等 10+平台，评论也抓可以多模态识别，像抖音、快手等短视频内容能解析，搜索引擎里的天气、日历、股票等结构化信息卡片也能解析除了外部公开舆情，也可以把企业内部数据库接进来一起分析也可以做为特定领域的舆情分析工具，比如说，修改一下Agent工具集的api参数与prompt，就可以变成一个金融领域的市场分析系统 #AI舆情工具 #BettaFish微舆

#AI舆情工具 #BettaFish微舆 #多Agent舆情分析 #全域采集 #零门槛

5个月前

阿里最新放出了一款用于理解和操作GUI的GUI Grounding模型：UI-Ins，在5个基准上刷出新SOTA，安卓任务成功率74.1% 主打一个“把一句话变成屏幕上的准确点击”，指令即推理，它把一句话拆成多条思维链，然后挑最靠谱的那条去点屏幕有泛化推理能力，能组合出训练时没有明确教过的新推理角度有7B、32B两版 UI-Ins的7B在AndroidWorld端到端任务成功率74.1%，比Gemini 2.5 Computer Use的69.7 %高出4个点 UI-Ins-32B在UI-I2E-Bench上达到了87.3%的准确性，在ScreenSpot-Pro上达到了57.0%，在MMBench-GUI L2上达到了84.9% #大模型 #UIIns

#UI-Ins #GUI Grounding模型 #安卓任务成功率74.1% #泛化推理能力 #大模型

5个月前

美团刚刚开源了一款低延迟全模态大模型：LongCat-Flash-Omni，128K上下文+支持超8分钟实时音视频交互能听能看能说，毫秒级延迟，可以拿来搭建实时语音助手、直播弹幕机器人、音视频质检等在OmniBench上超Gemini-2.5-Flash、Qwen3-Omni，接近Gemini 2.5 Pro；在MMBench与Gemini、GPT-4o、Qwen-VL相当；MVBench上超Gemini 2.5 Pro和 GPT-4o 通用知识接近DeepSeek V3.1、Qwen3等总参数560B，激活27B，基于其LongCat-Flash的ScMoE 架构 #大模型 #LongCatFlashOmni

Google Gemini 2.5发布引发AI模型性价比热议· 475 条信息

OpenAI新德里发布会：ChatGPT语音翻译功能引发热议· 869 条信息

#美团 #LongCat-Flash-Omni #开源 #大模型 #多模态 #低延迟

5个月前

英伟达版的“Banana”，英伟达开源了一款物理级图像编辑模型：ChronoEdit-14B，静态图+一句话，4秒生成一张符合物理的图像 ChronoEdit具备“时间观念”和“物理常识”，它能理解动作，比如说“推倒”、“拿起”这种动作，可以根据它学到的物理常识，画出这个动作发生后，世界应该变成什么样子 8 步扩散完成一次图像编辑，在H100上约4秒一张图从效果看，预测动作发生结果的能力比较强，改变姿势后，人物、服装、背景风格的一致性也保持的比较好，光影、反射效果处理的也比较符合逻辑可以用在游戏制作、电影特效、机器人训练等场景上 #ChronoEdit #AI图像编辑

AI视频井喷：Midjourney领跑，多模态混战· 337 条信息

#英伟达 #ChronoEdit-14B #AI图像编辑 #物理级图像编辑 #4秒生成图像

5个月前

Claude Skill：Vibe working的时代来临，每个人都可以用自然语言构建专业的workflow，以结果为导向替代人和岗位的新时代来临 Claude skill等同于简历里的skill，使用大模型的解决问题的方式越来越接近人类的工作协同方式，渐进式信息加载到context是claude skill的核心设计思想。

Claude Skills系统发布引发AI行业新变革· 66 条信息

#claude skill #自然语言 #Workflow #大模型 #工作协同

5个月前

Anthropic前两天新出的一个让Claude从通用秒变领域专家的工具：Agent Skills 它把知识、脚本和资源打包成文件夹，让Claude按需动态加载，来解决通用大模型缺乏领域流程以及上下文的问题相当于给AI写一份指南，告诉它如何使用公司的工具、遵循特定的工作流程来完成任务结构比较简单，一个文件夹+（YAML开头写明名称与描述）渐进式信息披露的方式，AI只在需要时加载信息，节省上下文窗口，启动时只读YAML开头，需要时整篇 SKILL 入上下文，再深入才读同目录下的附加文件/脚本技能包里可以包含文本指令、Python脚本，AI可直接运行脚本，也可把代码读入上下文当参考开发流程：先评估任务缺口，再小步迭代补技能，用真实对话观察 Claude使用方式，让Claude自己反思并补充技能相当于Agent Skills通过模块化可扩展的方式，把专业知识打包后赋能AI，来构建满足特定需求的智能体 #AIAgent #AgentSkills

Claude Skills系统发布引发AI行业新变革· 66 条信息

#Anthropic #Claude #Agent Skills #领域专家 #AI工具