时政
财经
科技
虚拟货币
其他
登录
AIGCLINK
关注
统计数据
121
文章
0
粉丝
0
获赞
2601
阅读
热门文章
1
TechFlow 深潮 发布的文章:近期教育领域的变化引发了广泛讨论,我认为教育改革应该更加注重学生的个性化发展和创新能...
145
32
AIGCLINK
3个月前
2026年已到来,AI新范式也正在1%少数人身上发生,26年新的机会在哪里如何把握,为了让国内AIGC开发者更好的了解全球最新AI趋势,AIGCLINK联合多家AI社区、媒体共同组织了2026年AIGC中国开发者大会,还将发起芯片适配联盟、开源AI项目开发者双百扶持计划、AI公益助残计划等,将为vibe coding创作者提供一个商业化变现通道,期待1月17号相聚北京望京共探2026年AI发展新趋势: #aigc开发者大会 #aigclink #芯片适配联盟
分享
评论 0
0
AIGCLINK
3个月前
稚晖君刚刚发布了全身力控的小尺寸个人人形机器人:上纬启元Q1,高0.8米,一个背包即能打包带走 Q1是在保持全尺寸人形机器人能力的前提下实现的小尺寸和全身力控,其关键在于QDD关节的微型化,做到了比鸡蛋还小的极限尺寸 Q1能被折叠放进背包,便携性很强 #人形机器人 #上纬启元Q1 #AI机器人
分享
评论 0
0
AIGCLINK
3个月前
一款本地化AI聊天记录分析器:ChatLab,把导出的微信、QQ等聊天记录丢进去,它就可以深挖聊天内容 可以用来做社群运营分析,比如群活跃度检测、KOL识别、热点话题捕捉等等 集成了10+Function Calling 工具,可动态组合,来辅助总结、搜人、找关键词 自带解析器,微信、QQ、WhatsApp、Telegram等可以标准化成统一格式 流式计算与多线程并行架构,百万条聊天记录也能快速响应 #AI聊天记录分析器 #ChatLab
分享
评论 0
0
AIGCLINK
3个月前
阿里新开源了一款主打超长上下文+记忆管理的模型:QwenLong-L1.5,性能较Qwen3-30B-A3B-Thinking平均提升9.9分 相当于可以把整本手册、整份财报、法律条文一次性丢进去,让它跨章节问答、写总结、抽条款 QwenLong-L1.5基于Qwen3-30B-A3B-Thinking构建,在此基础上引入了记忆机制,使其可以处理远超物理上下文窗口长度的任务 L1.5模型+长上下文推理与记忆管理的后训练方案全套开源,这套方案统一了数据合成、训练方法和智能体架构 #QwenLongL15 #长上下文模型
分享
评论 0
0
AIGCLINK
3个月前
博客:
分享
评论 0
0
AIGCLINK
3个月前
项目代码:
分享
评论 0
0
AIGCLINK
3个月前
这个好,手写公式秒变可编译LaTeX:TeXPen,全程在浏览器本地完成 比如,课堂上平板+投影,边写边出LaTeX,实时投屏,方便多了 基于WebGPU+WebAssembly,模型跑在本地电脑上 模型用的OleehyO/TexTeller 298 M,首次打开自动下载并缓存,以后断网也能用 #公式转LaTeX #TeXPen
分享
评论 0
0
AIGCLINK
3个月前
基于nano banana pro的一个原生Vibe PPT工具:banana-slides Vibe PPT用来解决有内容却做不出能上台的图的问题,解决以往AI PPT预设模版风格少/单一问题 可以用想法、大纲、页面描述三种方式生成完整PPT 支持上传任意模板/素材,PDF/Docx/MD/Txt等文件皆可,自动识别文本中的关键点、图片链接和图表信息 可以上传参考图片或模板定制风格,可自然语言局部修改 对于办公快速出汇报PPT,老师出课程教案,用AI生PPT打灵感,都比较方便 #AIppt #PPT生成工具
分享
评论 0
0
AIGCLINK
3个月前
千问移动端更新,新增了手机端办公/学习能力,感觉还比较实用,等于日常+学习在手机上闭环了 一句话即出PPT、答题/批改、文档,它还有一个文库,把“找资料-读资料-出PPT-重点讲解”的这种知识生产的耗时过程给压缩了 适合老师出课件或者个性化学习使用 比如说,老师可以一键把课本章节变成课堂课件;学生拍照一键生成步骤+讲解,做查漏补缺 PPT生成支持文档、图片、语音三类输入,这个就比较方便,比如开会路上突发某个想法,直接语音AI生成PPT,会议室投屏,实现灵感零损耗 AI文档功能,它可以对话成稿,就是说它可以把对话内容自动转成主题清晰、结构合理并排版的Word文档 支持网页解析,公众号文章、外语网站翻译为中文并总结 #AIPPT #AI答题 #千问
分享
评论 0
0
AIGCLINK
3个月前
腾讯把WeKnora升级到了:WeKnora2.0,RAG+Agent双驱动,引入ReACT架构,AI可以像人一样边思考、边行动、边调整的动态完成复杂任务 就是说把PDF、Word、图片等资料丢进去,它能自动建知识库、做问答、写报告,还能上网查最新信息 这个适合需要大量阅读+深度思考+结构化输出的复杂任务,比如说做行业调研、产品分析 WeKnora作为微信对话开放平台核心框架,它的智能问答能力是可以零代码无缝集成到公众号、小程序等生态里的,这个比较方便 新增了FAQ知识库类型,可与现有文档知识库形成互补 FAQ知识库专用于管理“问题-答案”对形式的结构化知识,适合沉淀标准操作流程、产品使用指南、政策咨询等高频查询内容 支持通过MCP,内置uvx、npx启动工具,支持多种传输方式 内置DuckDuckGo获取实时信息 #WeKnora #微信公众号agent
分享
评论 0
0
AIGCLINK
3个月前
Notebook LM的本地开源复现款:open-notebook,最近上星非常猛 支持OpenAI、Anthropic、Ollama、LM Studio等16+模型商,提供嵌入、语音转文本、文本转语音等功能 播客发言人可以1-4 个,可以自定义配置 支持导入PDF、视频、音频、网页、Office等多种模态内容 #AI播客 #NotebookLM
分享
评论 0
0
AIGCLINK
4个月前
Nano Banana果然强大,以身试法,看到这个照片大家知道这个能干啥吧,果然强大😿#nanobanana
nanobanana平台助力个人形象照生成,专业形象照引发热议· 107 条信息
#nano banana
#以身试法
#强大
#负面
#恶搞
分享
评论 0
0
AIGCLINK
4个月前
折腾了几个礼拜,昨晚总算看到起量正常不报错了,起量才知道vllm有很多坑要踩,今天600w TPM走起,距离打满还差99% #vllm
#vLLM
#起量
#TPM
#技术
#乐观
分享
评论 0
0
AIGCLINK
4个月前
微软给的一套AI呼叫中心解决方案,Azure+OpenAI,扔一个API请求或直接拨号,AI语音客服即可接/打电话、记录报修、面试预约等 可以呼入、呼出 实时语音对话,支持打断、静音检测、多语言TTS/ASR、定制AI语音 通话结束后即生成一个网页报告 写工单可自定义字段,比如时间、地点、其他信息等 可以定制任务流、知识库管理、定制AI语气风格 #AI语音客服
OpenAI新德里发布会:ChatGPT语音翻译功能引发热议· 869 条信息
#AI语音客服
#微软Azure
#OpenAI
#呼叫中心解决方案
#自动化
分享
评论 0
0
AIGCLINK
4个月前
李飞飞World Labs的生成式多模态世界模型:Marble 刚刚已发布,一张图片/视频/文本提示/3D布局,即生成高保真3D世界 单图、文本、多视角图、短视频、粗糙3D块都能当prompt 生成之后还能二次创作 AI原生笔刷可以局部删改、换材质、换风格、换结构 可以一键扩世界 也可以多个小场景拼接 能导出高斯溅射、三角网格,也可渲染成带精确相机轨道的视频,在视频后处理环节自动添加烟、火焰、流水等动态元素,同时去除画面瑕疵 也就是说,做游戏的能直接拖进Unity/Unreal 当关卡;影视人可导出带相机轨道的视频当预演 #3D生成 #AI3D #Marble
AI视频井喷:Midjourney领跑,多模态混战· 337 条信息
#李飞飞
#World Labs
#生成式多模态
#3D世界模型Marble
#AI辅助创作
分享
评论 0
0
AIGCLINK
5个月前
阿里刚刚发了一个智能简历解析系统:SmartResume,直接把PDF/图片/Office文档简历变成结构化数据 HR部门的手动录入工作可以直接秒级完成了 系统融合了OCR与PDF元数据完成文本提取,结合版面检测重建阅读顺序,通过LLM将内容转换为结构化字段 能够提取基本信息、工作经历、教育背景等结构化信息 模型用的微调版Qwen3-0.6B,版面检测模型用的YOLOv10 可API及本地模型部署 #简历提取工具 #SmartResume
#阿里
#SmartResume
#智能简历解析
#Qwen3-0.6B
#YOLOv10
分享
评论 0
0
AIGCLINK
5个月前
一句话生成Excalidraw手绘风的专业图表工具:Smart Excalidraw 可以生成流程图、架构图、ER图20+种图表,可以智能匹配合适的图表类型,对研发、产品经理来说简直是神器 智能箭头优化算法,自动计算最佳连接点,来确保图表有序、逻辑清晰,避免线条交叉 输出的是标准Excalidraw格式,想微调颜色、位置、加图标随便拖 #AI图表生成 #SmartExcalidraw
#AI图表生成
#SmartExcalidraw
#手绘风图表
#流程图
#架构图
分享
评论 0
0
AIGCLINK
5个月前
Anthropic官方给出的【如何通过代码执行+MCP,来构建更高效的AI智能体】,把token消耗从15万降到了2千,时间/费用节省98% 随着连接工具的增多,直接工具调用方式导致的Token消耗过高、智能体效率降低问题 核心思想,把MCP服务器视为代码API,非直接的工具调用,让智能体编写代码来与MCP服务器交互 来增强智能体上下文效率、降低成本、减少延迟,也可以增强智能体处理复杂任务的能力,同时兼顾隐私 工具发现机制,把MCP工具组织成文件系统结构,比如,servers/google-drive/getDocument.ts,智能体可以通过探索文件系统来按需发现和加载所需的工具定义,无需一次性加载所有工具 代码编排,智能体不再直接调用工具,而是生成一段代码比如TypeScript,这段代码会调用封装好的函数来与MCP工具交互,比如说,将“从Google Drive下载会议记录并附加到Salesforce线索”的任务,转化为一段包含 gdrive.getDocument() 和 salesforce.updateRecord() 调用的代码 隐私保护上,中间结果默认保留在执行环境中,只有明确记录或返回的数据才会进入模型的上下文 对于敏感数据,比如个人身份信息 PII,MCP客户端可以在数据到达模型之前对其进行脱敏,并在需要时再进行反脱敏,确保敏感信息永远不会直接暴露给模型 #MCP #AIagent
#多智能体之争:Anthropic生态VS单智能体· 81 条信息
#AI智能体
#MCP服务器
#代码编排
#Token消耗
#隐私保护
分享
评论 0
0
AIGCLINK
5个月前
强,人民币不到150元手搓了一套AI导盲眼镜,可以盲道导航、过马路辅助、物品识别、实时语音交互,方案开源 基于ESP32,加AI模型+硬件,实现“帮我过马路”,系统就会实时播报“前方3米有斑马线,现在绿灯,可以通行” 功能可以扩展,比如新增“找公交站”功能,在 workflow_blindpath.py加代码即可 其他人也能同时用手机或电脑以第一视角实时看,远程协助 盲道导航,基于YOLO实时识别盲道、智能语音引导、识别障碍物并规划避障路线、识别急转弯并提前提醒 过马路辅助,实时检测斑马线位置方向、识别红绿灯、引导用户对准斑马线中心、绿灯时语音提示可以通行 物品识别与查找,智能物品搜索、使用YOLO-E开放词汇检测+ByteTrack 追踪、结合MediaPipe手部检测引导手部靠近物品、检测手部握持动作确认已拿到 实时语音交互,基于阿里云DashScope Paraformer实时语音识别、多模态对话 项目来自B站AI研究室-帆哥 #AI导盲眼镜 #AI导盲
#AI导盲眼镜
#盲人辅助
#开源项目
#B站帆哥
#实时语音交互
分享
评论 0
0
AIGCLINK
5个月前
强,一款多Agent舆情分析系统:BettaFish微舆,用自然语言提出需求,这就可以自动分析国内外30+主流社媒 相当于“零门槛”有了个情报智库,一句话拿到全景舆情报告 全域采集,爬虫集群同时抓取微博、小红书、抖音、快手等 10+平台,评论也抓 可以多模态识别,像抖音、快手等短视频内容能解析,搜索引擎里的天气、日历、股票等结构化信息卡片也能解析 除了外部公开舆情,也可以把企业内部数据库接进来一起分析 也可以做为特定领域的舆情分析工具,比如说,修改一下Agent工具集的api参数与prompt,就可以变成一个金融领域的市场分析系统 #AI舆情工具 #BettaFish微舆
#AI舆情工具
#BettaFish微舆
#多Agent舆情分析
#全域采集
#零门槛
分享
评论 0
0
AIGCLINK
5个月前
阿里最新放出了一款用于理解和操作GUI的GUI Grounding模型:UI-Ins,在5个基准上刷出新SOTA,安卓任务成功率74.1% 主打一个“把一句话变成屏幕上的准确点击”,指令即推理,它把一句话拆成多条思维链,然后挑最靠谱的那条去点屏幕 有泛化推理能力,能组合出训练时没有明确教过的新推理角度 有7B、32B两版 UI-Ins的7B在AndroidWorld端到端任务成功率74.1%,比Gemini 2.5 Computer Use的69.7 %高出4个点 UI-Ins-32B在UI-I2E-Bench上达到了87.3%的准确性,在ScreenSpot-Pro上达到了57.0%,在MMBench-GUI L2上达到了84.9% #大模型 #UIIns
#UI-Ins
#GUI Grounding模型
#安卓任务成功率74.1%
#泛化推理能力
#大模型
分享
评论 0
0
AIGCLINK
5个月前
美团刚刚开源了一款低延迟全模态大模型:LongCat-Flash-Omni,128K上下文+支持超8分钟实时音视频交互 能听能看能说,毫秒级延迟,可以拿来搭建实时语音助手、直播弹幕机器人、音视频质检等 在OmniBench上超Gemini-2.5-Flash、Qwen3-Omni,接近Gemini 2.5 Pro;在MMBench与Gemini、GPT-4o、Qwen-VL相当;MVBench上超Gemini 2.5 Pro和 GPT-4o 通用知识接近DeepSeek V3.1、Qwen3等 总参数560B,激活27B,基于其LongCat-Flash的ScMoE 架构 #大模型 #LongCatFlashOmni
Google Gemini 2.5发布引发AI模型性价比热议· 475 条信息
OpenAI新德里发布会:ChatGPT语音翻译功能引发热议· 869 条信息
#美团
#LongCat-Flash-Omni
#开源
#大模型
#多模态
#低延迟
分享
评论 0
0
AIGCLINK
5个月前
英伟达版的“Banana”,英伟达开源了一款物理级图像编辑模型:ChronoEdit-14B,静态图+一句话,4秒生成一张符合物理的图像 ChronoEdit具备“时间观念”和“物理常识”,它能理解动作,比如说“推倒”、“拿起”这种动作,可以根据它学到的物理常识,画出这个动作发生后,世界应该变成什么样子 8 步扩散完成一次图像编辑,在H100上约4秒一张图 从效果看,预测动作发生结果的能力比较强,改变姿势后,人物、服装、背景风格的一致性也保持的比较好,光影、反射效果处理的也比较符合逻辑 可以用在游戏制作、电影特效、机器人训练等场景上 #ChronoEdit #AI图像编辑
AI视频井喷:Midjourney领跑,多模态混战· 337 条信息
#英伟达
#ChronoEdit-14B
#AI图像编辑
#物理级图像编辑
#4秒生成图像
分享
评论 0
0
AIGCLINK
5个月前
Claude Skill:Vibe working的时代来临,每个人都可以用自然语言构建专业的workflow,以结果为导向替代人和岗位的新时代来临 Claude skill等同于简历里的skill,使用大模型的解决问题的方式越来越接近人类的工作协同方式,渐进式信息加载到context是claude skill的核心设计思想。
Claude Skills系统发布引发AI行业新变革· 66 条信息
#claude skill
#自然语言
#Workflow
#大模型
#工作协同
分享
评论 0
0
AIGCLINK
5个月前
Anthropic前两天新出的一个让Claude从通用秒变领域专家的工具:Agent Skills 它把知识、脚本和资源打包成文件夹,让Claude按需动态加载,来解决通用大模型缺乏领域流程以及上下文的问题 相当于给AI写一份指南,告诉它如何使用公司的工具、遵循特定的工作流程来完成任务 结构比较简单,一个文件夹+(YAML开头写明名称与描述) 渐进式信息披露的方式,AI只在需要时加载信息,节省上下文窗口,启动时只读YAML开头,需要时整篇 SKILL 入上下文,再深入才读同目录下的附加文件/脚本 技能包里可以包含文本指令、Python脚本,AI可直接运行脚本,也可把代码读入上下文当参考 开发流程:先评估任务缺口,再小步迭代补技能,用真实对话观察 Claude使用方式,让Claude自己反思并补充技能 相当于Agent Skills通过模块化可扩展的方式,把专业知识打包后赋能AI,来构建满足特定需求的智能体 #AIAgent #AgentSkills
Claude Skills系统发布引发AI行业新变革· 66 条信息
#Anthropic
#Claude
#Agent Skills
#领域专家
#AI工具
分享
评论 0
0
上一页
1
2
3
4
5
下一页
个人主页
通知
我的投稿
我的关注
我的拉黑
我的评论
我的点赞