时政
财经
科技
虚拟货币
其他
登录
AIGCLINK
关注
统计数据
92
文章
0
粉丝
0
获赞
552
阅读
热门文章
1
TechFlow 深潮 发布的文章:近期教育领域的变化引发了广泛讨论,我认为教育改革应该更加注重学生的个性化发展和创新能...
145
32
AIGCLINK
1周前
博客:
分享
评论 0
0
AIGCLINK
1周前
项目代码:
分享
评论 0
0
AIGCLINK
1周前
这个好,手写公式秒变可编译LaTeX:TeXPen,全程在浏览器本地完成 比如,课堂上平板+投影,边写边出LaTeX,实时投屏,方便多了 基于WebGPU+WebAssembly,模型跑在本地电脑上 模型用的OleehyO/TexTeller 298 M,首次打开自动下载并缓存,以后断网也能用 #公式转LaTeX #TeXPen
分享
评论 0
0
AIGCLINK
1周前
基于nano banana pro的一个原生Vibe PPT工具:banana-slides Vibe PPT用来解决有内容却做不出能上台的图的问题,解决以往AI PPT预设模版风格少/单一问题 可以用想法、大纲、页面描述三种方式生成完整PPT 支持上传任意模板/素材,PDF/Docx/MD/Txt等文件皆可,自动识别文本中的关键点、图片链接和图表信息 可以上传参考图片或模板定制风格,可自然语言局部修改 对于办公快速出汇报PPT,老师出课程教案,用AI生PPT打灵感,都比较方便 #AIppt #PPT生成工具
分享
评论 0
0
AIGCLINK
1周前
千问移动端更新,新增了手机端办公/学习能力,感觉还比较实用,等于日常+学习在手机上闭环了 一句话即出PPT、答题/批改、文档,它还有一个文库,把“找资料-读资料-出PPT-重点讲解”的这种知识生产的耗时过程给压缩了 适合老师出课件或者个性化学习使用 比如说,老师可以一键把课本章节变成课堂课件;学生拍照一键生成步骤+讲解,做查漏补缺 PPT生成支持文档、图片、语音三类输入,这个就比较方便,比如开会路上突发某个想法,直接语音AI生成PPT,会议室投屏,实现灵感零损耗 AI文档功能,它可以对话成稿,就是说它可以把对话内容自动转成主题清晰、结构合理并排版的Word文档 支持网页解析,公众号文章、外语网站翻译为中文并总结 #AIPPT #AI答题 #千问
分享
评论 0
0
AIGCLINK
1周前
腾讯把WeKnora升级到了:WeKnora2.0,RAG+Agent双驱动,引入ReACT架构,AI可以像人一样边思考、边行动、边调整的动态完成复杂任务 就是说把PDF、Word、图片等资料丢进去,它能自动建知识库、做问答、写报告,还能上网查最新信息 这个适合需要大量阅读+深度思考+结构化输出的复杂任务,比如说做行业调研、产品分析 WeKnora作为微信对话开放平台核心框架,它的智能问答能力是可以零代码无缝集成到公众号、小程序等生态里的,这个比较方便 新增了FAQ知识库类型,可与现有文档知识库形成互补 FAQ知识库专用于管理“问题-答案”对形式的结构化知识,适合沉淀标准操作流程、产品使用指南、政策咨询等高频查询内容 支持通过MCP,内置uvx、npx启动工具,支持多种传输方式 内置DuckDuckGo获取实时信息 #WeKnora #微信公众号agent
分享
评论 0
0
AIGCLINK
2周前
Notebook LM的本地开源复现款:open-notebook,最近上星非常猛 支持OpenAI、Anthropic、Ollama、LM Studio等16+模型商,提供嵌入、语音转文本、文本转语音等功能 播客发言人可以1-4 个,可以自定义配置 支持导入PDF、视频、音频、网页、Office等多种模态内容 #AI播客 #NotebookLM
分享
评论 0
0
AIGCLINK
3周前
Nano Banana果然强大,以身试法,看到这个照片大家知道这个能干啥吧,果然强大😿#nanobanana
nanobanana平台助力个人形象照生成,专业形象照引发热议· 107 条信息
#nano banana
#以身试法
#强大
#负面
#恶搞
分享
评论 0
0
AIGCLINK
3周前
折腾了几个礼拜,昨晚总算看到起量正常不报错了,起量才知道vllm有很多坑要踩,今天600w TPM走起,距离打满还差99% #vllm
#vLLM
#起量
#TPM
#技术
#乐观
分享
评论 0
0
AIGCLINK
1个月前
微软给的一套AI呼叫中心解决方案,Azure+OpenAI,扔一个API请求或直接拨号,AI语音客服即可接/打电话、记录报修、面试预约等 可以呼入、呼出 实时语音对话,支持打断、静音检测、多语言TTS/ASR、定制AI语音 通话结束后即生成一个网页报告 写工单可自定义字段,比如时间、地点、其他信息等 可以定制任务流、知识库管理、定制AI语气风格 #AI语音客服
OpenAI新德里发布会:ChatGPT语音翻译功能引发热议· 869 条信息
#AI语音客服
#微软Azure
#OpenAI
#呼叫中心解决方案
#自动化
分享
评论 0
0
AIGCLINK
1个月前
李飞飞World Labs的生成式多模态世界模型:Marble 刚刚已发布,一张图片/视频/文本提示/3D布局,即生成高保真3D世界 单图、文本、多视角图、短视频、粗糙3D块都能当prompt 生成之后还能二次创作 AI原生笔刷可以局部删改、换材质、换风格、换结构 可以一键扩世界 也可以多个小场景拼接 能导出高斯溅射、三角网格,也可渲染成带精确相机轨道的视频,在视频后处理环节自动添加烟、火焰、流水等动态元素,同时去除画面瑕疵 也就是说,做游戏的能直接拖进Unity/Unreal 当关卡;影视人可导出带相机轨道的视频当预演 #3D生成 #AI3D #Marble
AI视频井喷:Midjourney领跑,多模态混战· 337 条信息
#李飞飞
#World Labs
#生成式多模态
#3D世界模型Marble
#AI辅助创作
分享
评论 0
0
AIGCLINK
1个月前
阿里刚刚发了一个智能简历解析系统:SmartResume,直接把PDF/图片/Office文档简历变成结构化数据 HR部门的手动录入工作可以直接秒级完成了 系统融合了OCR与PDF元数据完成文本提取,结合版面检测重建阅读顺序,通过LLM将内容转换为结构化字段 能够提取基本信息、工作经历、教育背景等结构化信息 模型用的微调版Qwen3-0.6B,版面检测模型用的YOLOv10 可API及本地模型部署 #简历提取工具 #SmartResume
#阿里
#SmartResume
#智能简历解析
#Qwen3-0.6B
#YOLOv10
分享
评论 0
0
AIGCLINK
1个月前
一句话生成Excalidraw手绘风的专业图表工具:Smart Excalidraw 可以生成流程图、架构图、ER图20+种图表,可以智能匹配合适的图表类型,对研发、产品经理来说简直是神器 智能箭头优化算法,自动计算最佳连接点,来确保图表有序、逻辑清晰,避免线条交叉 输出的是标准Excalidraw格式,想微调颜色、位置、加图标随便拖 #AI图表生成 #SmartExcalidraw
#AI图表生成
#SmartExcalidraw
#手绘风图表
#流程图
#架构图
分享
评论 0
0
AIGCLINK
1个月前
Anthropic官方给出的【如何通过代码执行+MCP,来构建更高效的AI智能体】,把token消耗从15万降到了2千,时间/费用节省98% 随着连接工具的增多,直接工具调用方式导致的Token消耗过高、智能体效率降低问题 核心思想,把MCP服务器视为代码API,非直接的工具调用,让智能体编写代码来与MCP服务器交互 来增强智能体上下文效率、降低成本、减少延迟,也可以增强智能体处理复杂任务的能力,同时兼顾隐私 工具发现机制,把MCP工具组织成文件系统结构,比如,servers/google-drive/getDocument.ts,智能体可以通过探索文件系统来按需发现和加载所需的工具定义,无需一次性加载所有工具 代码编排,智能体不再直接调用工具,而是生成一段代码比如TypeScript,这段代码会调用封装好的函数来与MCP工具交互,比如说,将“从Google Drive下载会议记录并附加到Salesforce线索”的任务,转化为一段包含 gdrive.getDocument() 和 salesforce.updateRecord() 调用的代码 隐私保护上,中间结果默认保留在执行环境中,只有明确记录或返回的数据才会进入模型的上下文 对于敏感数据,比如个人身份信息 PII,MCP客户端可以在数据到达模型之前对其进行脱敏,并在需要时再进行反脱敏,确保敏感信息永远不会直接暴露给模型 #MCP #AIagent
#多智能体之争:Anthropic生态VS单智能体· 81 条信息
#AI智能体
#MCP服务器
#代码编排
#Token消耗
#隐私保护
分享
评论 0
0
AIGCLINK
1个月前
强,人民币不到150元手搓了一套AI导盲眼镜,可以盲道导航、过马路辅助、物品识别、实时语音交互,方案开源 基于ESP32,加AI模型+硬件,实现“帮我过马路”,系统就会实时播报“前方3米有斑马线,现在绿灯,可以通行” 功能可以扩展,比如新增“找公交站”功能,在 workflow_blindpath.py加代码即可 其他人也能同时用手机或电脑以第一视角实时看,远程协助 盲道导航,基于YOLO实时识别盲道、智能语音引导、识别障碍物并规划避障路线、识别急转弯并提前提醒 过马路辅助,实时检测斑马线位置方向、识别红绿灯、引导用户对准斑马线中心、绿灯时语音提示可以通行 物品识别与查找,智能物品搜索、使用YOLO-E开放词汇检测+ByteTrack 追踪、结合MediaPipe手部检测引导手部靠近物品、检测手部握持动作确认已拿到 实时语音交互,基于阿里云DashScope Paraformer实时语音识别、多模态对话 项目来自B站AI研究室-帆哥 #AI导盲眼镜 #AI导盲
#AI导盲眼镜
#盲人辅助
#开源项目
#B站帆哥
#实时语音交互
分享
评论 0
0
AIGCLINK
1个月前
强,一款多Agent舆情分析系统:BettaFish微舆,用自然语言提出需求,这就可以自动分析国内外30+主流社媒 相当于“零门槛”有了个情报智库,一句话拿到全景舆情报告 全域采集,爬虫集群同时抓取微博、小红书、抖音、快手等 10+平台,评论也抓 可以多模态识别,像抖音、快手等短视频内容能解析,搜索引擎里的天气、日历、股票等结构化信息卡片也能解析 除了外部公开舆情,也可以把企业内部数据库接进来一起分析 也可以做为特定领域的舆情分析工具,比如说,修改一下Agent工具集的api参数与prompt,就可以变成一个金融领域的市场分析系统 #AI舆情工具 #BettaFish微舆
#AI舆情工具
#BettaFish微舆
#多Agent舆情分析
#全域采集
#零门槛
分享
评论 0
0
AIGCLINK
1个月前
阿里最新放出了一款用于理解和操作GUI的GUI Grounding模型:UI-Ins,在5个基准上刷出新SOTA,安卓任务成功率74.1% 主打一个“把一句话变成屏幕上的准确点击”,指令即推理,它把一句话拆成多条思维链,然后挑最靠谱的那条去点屏幕 有泛化推理能力,能组合出训练时没有明确教过的新推理角度 有7B、32B两版 UI-Ins的7B在AndroidWorld端到端任务成功率74.1%,比Gemini 2.5 Computer Use的69.7 %高出4个点 UI-Ins-32B在UI-I2E-Bench上达到了87.3%的准确性,在ScreenSpot-Pro上达到了57.0%,在MMBench-GUI L2上达到了84.9% #大模型 #UIIns
#UI-Ins
#GUI Grounding模型
#安卓任务成功率74.1%
#泛化推理能力
#大模型
分享
评论 0
0
AIGCLINK
1个月前
美团刚刚开源了一款低延迟全模态大模型:LongCat-Flash-Omni,128K上下文+支持超8分钟实时音视频交互 能听能看能说,毫秒级延迟,可以拿来搭建实时语音助手、直播弹幕机器人、音视频质检等 在OmniBench上超Gemini-2.5-Flash、Qwen3-Omni,接近Gemini 2.5 Pro;在MMBench与Gemini、GPT-4o、Qwen-VL相当;MVBench上超Gemini 2.5 Pro和 GPT-4o 通用知识接近DeepSeek V3.1、Qwen3等 总参数560B,激活27B,基于其LongCat-Flash的ScMoE 架构 #大模型 #LongCatFlashOmni
Google Gemini 2.5发布引发AI模型性价比热议· 475 条信息
OpenAI新德里发布会:ChatGPT语音翻译功能引发热议· 869 条信息
#美团
#LongCat-Flash-Omni
#开源
#大模型
#多模态
#低延迟
分享
评论 0
0
AIGCLINK
1个月前
英伟达版的“Banana”,英伟达开源了一款物理级图像编辑模型:ChronoEdit-14B,静态图+一句话,4秒生成一张符合物理的图像 ChronoEdit具备“时间观念”和“物理常识”,它能理解动作,比如说“推倒”、“拿起”这种动作,可以根据它学到的物理常识,画出这个动作发生后,世界应该变成什么样子 8 步扩散完成一次图像编辑,在H100上约4秒一张图 从效果看,预测动作发生结果的能力比较强,改变姿势后,人物、服装、背景风格的一致性也保持的比较好,光影、反射效果处理的也比较符合逻辑 可以用在游戏制作、电影特效、机器人训练等场景上 #ChronoEdit #AI图像编辑
AI视频井喷:Midjourney领跑,多模态混战· 337 条信息
#英伟达
#ChronoEdit-14B
#AI图像编辑
#物理级图像编辑
#4秒生成图像
分享
评论 0
0
AIGCLINK
2个月前
Claude Skill:Vibe working的时代来临,每个人都可以用自然语言构建专业的workflow,以结果为导向替代人和岗位的新时代来临 Claude skill等同于简历里的skill,使用大模型的解决问题的方式越来越接近人类的工作协同方式,渐进式信息加载到context是claude skill的核心设计思想。
Claude Skills系统发布引发AI行业新变革· 66 条信息
#claude skill
#自然语言
#Workflow
#大模型
#工作协同
分享
评论 0
0
AIGCLINK
2个月前
Anthropic前两天新出的一个让Claude从通用秒变领域专家的工具:Agent Skills 它把知识、脚本和资源打包成文件夹,让Claude按需动态加载,来解决通用大模型缺乏领域流程以及上下文的问题 相当于给AI写一份指南,告诉它如何使用公司的工具、遵循特定的工作流程来完成任务 结构比较简单,一个文件夹+(YAML开头写明名称与描述) 渐进式信息披露的方式,AI只在需要时加载信息,节省上下文窗口,启动时只读YAML开头,需要时整篇 SKILL 入上下文,再深入才读同目录下的附加文件/脚本 技能包里可以包含文本指令、Python脚本,AI可直接运行脚本,也可把代码读入上下文当参考 开发流程:先评估任务缺口,再小步迭代补技能,用真实对话观察 Claude使用方式,让Claude自己反思并补充技能 相当于Agent Skills通过模块化可扩展的方式,把专业知识打包后赋能AI,来构建满足特定需求的智能体 #AIAgent #AgentSkills
Claude Skills系统发布引发AI行业新变革· 66 条信息
#Anthropic
#Claude
#Agent Skills
#领域专家
#AI工具
分享
评论 0
0
AIGCLINK
2个月前
酷,从论文生成演示视频的工具:Paper2Video,输入一篇论文,直接吐出一段带真人头像、字幕、翻页指针的学术演讲视频 把读论文、做PPT、录讲解、剪片子全部自动化了,几分钟可产出一条能直接发B站/YouTube的学术演讲视频 其技术实现是用了一个PaperTalker多智能体框架,该框架把复杂的生成任务分解成四个并行的构建器 幻灯片构建器,把论文转成LaTeX幻灯,自动排版、自动纠错 字幕构建器,看图说话,写出讲解词和该指哪的提示 光标构建器,把提示变成屏幕坐标,同步移动鼠标/激光笔 演讲者构建器,用TTS把字幕转成旁白,再用预先提供的演讲者肖像照,生成虚拟数字人演讲视频 并且它配备了一套评估体系,来评价生成的学术视频的准确性和高效性 #论文转视频 #Paper2Video
#论文转视频
#Paper2Video
#学术演讲视频
#自动化
#数字人
分享
评论 0
0
AIGCLINK
2个月前
新加坡国立大学Show Lab放出了一款教育视频自动生成工具:Code2Video,非常实用 把写教案升级为了自动代码动画生成,同时更好的解决了生成内容逻辑结构和视觉准确性的问题 对老师来说,只需要输入教学主题就能自动获得一个3Blue1Brown风的教学动画 Code2Video核心是让AI先自动写Manim Python代码,然后再渲染出教育视频,并非直接出视频。是一个多智能体架构,包括Planner、Coder和Critic 看给出的效果,跟Veo3、Wan-2.1比,Code2Video在逻辑结构、知识准确性,以及教学清晰度上表现更好一些 视频通过代码生成,对生成的每个元素、动作、公式都可以精准控制,这就比较适合需要逻辑结构和视觉准确性的教学场景 #AI教学视频生成 #AI公式视频 #AI教育 #Code2Video
AI视频井喷:Midjourney领跑,多模态混战· 337 条信息
#AI教学视频生成
#Code2Video
#新加坡国立大学
#教育动画
#Manim Python
分享
评论 0
0
AIGCLINK
2个月前
sora 2的发布,正式开启AI视频分发平台0-1的突破(也应验年初的2025趋势预测),未来将产生以下十大影响: 1、sora2的发布,正式将AI视频2D生成领域带向全面内卷化,其实当前开源领域已经可以达到类似效。 2、为AI类视频的分发提供了原生native的地方,也将极大打击抖音、tiktok等平台的对AI类视频内容不友好的气焰(这类平台极大限制AI生成内容的分发) 3、未来一年全网的视频、图像内容中,AI类内容渗透率将从不足10%提升到35%以上,也就是我们看到3条内容将有1条是AI生成的。 4、AI生成电影将在未来6个月内成为现实,虽然当前sora2生成电影还有些乏力,但这个gap在6个月内就会被磨平。 5、sora2将会极大刺激视觉领域:影视行业、广告片行业、动态漫行业、短剧行业等将会迎来大的爆发,在AI加持下将会大爆发,规模也会在原来规模基础上增加3倍+。 6、sora2成为AI首个集生产内容和消费内容为一体的平台,也会成为AI领域继大模型、AI搜索之后的第三个被C端用户大规模接受的赛道,将会出现AI超级应用。 7、法律法规大概率在6个月内会有相关落地,以防止诈骗等AI类灰色内容产生。 8、sora2也会反向为视觉模型、物理模型的成熟带来大量的优质数据集,极大的促进视觉模型大爆发,开源版的sora2预计在2个月内会出现。 9、困扰很多视觉模型的数据集版权问题(尤其前段时间海螺ai的版权风波罚款),sora2的出现会极大的缓解,尤其当年语言模型都蒸馏gpt一样,这一波视觉模型也会同样发生。 10、国产的sora2大概率在2个月内会出现,困扰大家最难的是视频数据集的版权,至少这次sora2的出现一定程度上解决了这个问题。 #sora2 #tiktok #sora的影响
AI视频井喷:Midjourney领跑,多模态混战· 337 条信息
#Sora2发布
#AI视频分发
#AI内容渗透率提升
#AI生成电影
#视觉领域爆发
分享
评论 0
0
AIGCLINK
2个月前
谷歌发布的Veo3的核心技术CoF(视觉模型思维链),正在推动视觉模型从特定任务模型到通用视觉模型的演进,犹如当年大语言模型经历了NLP到LLM的进化,视觉模型也在经历从特定任务的CV到通用视觉基础模型的进化。 Veo 3 有很强的泛化能力,其在未训练任务上表现出极强的零样本能力,如物体分割、边缘检测、物理模拟和迷宫求解等。通过 18,384 个生成视频评估 62 个定性任务和 7 个定量任务,证明视频模型可成为通用视觉基础模型,其不仅是视频生成模型还是视觉感知基础模型。 Veo 3 像 LLM 改变文字一样,推动视频 AI 向通用基础模型演进,降低门槛,促进教育和研究创新,这篇论文将成为通用视觉基础模型的一个重要基石。 核心论文:
智谱直播发布全球最佳视觉模型GLM-4.5V,挑战AI视觉领域极限· 21 条信息
#谷歌Veo3
#视觉模型思维链CoF
#通用视觉模型
#零样本能力
#视频AI
分享
评论 0
0
1
2
3
4
下一页
个人主页
通知
我的投稿
我的关注
我的拉黑
我的评论
我的点赞