Gorden Sun

统计数据

751
文章
0
粉丝
0
获赞
46901
阅读

热门文章

1

TechFlow 深潮 发布的文章:近期教育领域的变化引发了广泛讨论,我认为教育改革应该更加注重学生的个性化发展和创新能...

145 32
avatar
Gorden Sun
11小时前
AI资讯日报,3月18日:
avatar
Gorden Sun
11小时前
dots.ocr-1.5:小红书开源的OCR模型 3B大小,评分超过PaddleOCR-VL-1.5,不仅能识别图片和文字,还能把图表识别成SVG的形式。 模型:
avatar
Gorden Sun
11小时前
Claude Cowork支持手机端遥控 前一阵子Claude Code增加了手机端控制功能,现在Claude Cowork也有了。 相比OpenAI和谷歌,Anthropic的产品不多,但各个都是顶级生产力工具:Claude Code、Claude Cowork、Claude Chat、Claude for PPT、Claude for Excel、Claude for Chrome
#ClaudeCowork #手机端控制 #顶级生产力工具 #Claude产品 #Anthropic #人工智能 #技术创新
avatar
Gorden Sun
12小时前
Mamba-3:新一代Memba架构 Mamba-2从训练场景出发,为训练速度做了大量简化;Mamba-3从推理场景出发,在不增加推理延迟的前提下显著提升模型质量。Mamba与Transformer混合使用效果优于纯模型,未来还是以混合使用为主。 博客:
#Mamba-3 #Mamba架构 #训练速度 #推理场景 #模型质量 #transformer #混合使用
avatar
Gorden Sun
1天前
AI资讯日报,3月17日:
avatar
Gorden Sun
1天前
Foundation-1:开源AI生成音乐 基于Stable Audio微调,能生成没有人声的音乐,效果非常好,能生成可循环的片段音乐,且只需要7G显存,本地能运行。 模型:
avatar
Gorden Sun
1天前
阿里开源OpenSandbox:面向AI应用的通用沙箱平台 可以为Agent运行提供沙箱环境,提供多语言SDK + 统一API + Docker/Kubernetes运行,集成Chrome无头浏览器、Playwright自动化,支持运行Claude Code、Gemini CLI、Codex CLI等Agent,基本开箱即用。 Github:
avatar
Gorden Sun
2天前
Mistral开源Mistral Small 4 119B总参数,6.5B激活参数,256K上下文,支持文字和图片输入。评分略低于Qwen3-Next-80B,明显低于Qwen3.5 122B 模型:
avatar
Gorden Sun
2天前
AI资讯日报,3月16日:
avatar
Gorden Sun
2天前
在Transformer内部造一台计算机 一篇充满争议的文章,Percepta AI把WebAssembly解释器编译进Transformer权重,让模型的前向传播本身就是程序执行,不依赖任何外部工具就能进行数学计算。 流程是:C代码→WASM→将WASM解释器编码进权重→前向传播逐token输出执行轨迹 争议的点在于:权重不是训练出来的,而是直接编译进去的,更像“用一种奇特方式写了个程序”,不是真正的AI学习;可微分性并没有证明,很可能LLM也没法学习这个计算过程;与原生WASM相比可能慢数千倍; 原文:
#transformer #PerceptaAI #WebAssembly #机器学习 #人工智能
avatar
Gorden Sun
2天前
OpenMAIC:AI一键生成交互式课程 清华开源的项目,效果非常好,体验非常完整。生成的内容包括: 课程介绍PPT(使用了Banana生成配图) 旁白语音讲解,讲解时会高亮展示讲解的内容 课后测评,生成几道题目做考查 学习的过程中还可以随时提问,提后后老师这个Agent会讲解你的问题,白板上同时展示讲解的内容。然后其他几个同学Agent开始杠精和BB,然后老师又是一顿讲解,好像真的煞有介事的在上课,BB了一顿还会要求你再发言(早知道我就不问了),非常拟人非常有趣。 在线体验: Github:
#OpenMAIC #交互式课程 #人工智能 #清华大学 #开源项目
avatar
Gorden Sun
2天前
Fun-CineForge:阿里开源的AI生成影视配音 输入视频+文本,AI生成配音,能识别多个角色,能按要求设置配音风格,生成的配音节奏与视频里说话的唇形同步。演示视频的声音效果非常好。 项目地址: 模型:
avatar
Gorden Sun
3天前
AI资讯日报,3月15日:
avatar
Gorden Sun
3天前
LCO-Embedding-Omni-7B:开源多模态Embedding模型 基于Qwen2.5-Omni,支持文本、图片、音频,在同等参数大小下实现开源最佳。 模型:
avatar
Gorden Sun
3天前
Junior:AI员工 比Agent更进一步,Agent只能算人类的助理,Junior有自己的邮箱、能加入Slack/Notion/GitHub等团队工具、不需要人类命令就能自主工作。 上手快:入职当天就能阅读所有历史文档,立即就能开工; 积极主动:不用输入提示词,AI员工关注所有正在进行的工作,发现重要的事项立即主动执行,而且是7x24小时工作; 组织写作:Agent是协助个人,AI员工是协助整个组织,能记忆整个组织的事项,督促遗漏事项,并记录和跟进每一场会议的内容。 现在还处于非常早期的阶段,但是这个概念已经具备了落地的前景,好消息是AI员工收费2000美元/月,比你工资还高。 官网:
#AI员工 #agent #自主工作 #团队协作 #技术创新 #生产力工具
avatar
Gorden Sun
3天前
OpenJarvis:本地优先的AI Agent框架 斯坦福开源,支持Ollama、vLLM、SGLang、llama.cpp等多种本地推理服务,也可以切换到API。 Github:
#OpenJarvis #AI Agent #斯坦福大学 #开源 #Ollama #本地推理服务
avatar
Gorden Sun
4天前
AI资讯日报,3月14日:
avatar
Gorden Sun
4天前
Chrome 146原生支持WebMCP Agent可以通过WebMCP直接操作Chrome浏览器里的网页。 相比之前144版本基于CDP(Chrome DevTools Protocol)实现的MCP,WebMCP网页本身就是MCP Server,前端JS直接变成Agent接口,不需要额外的Python/Node后端,而且WebMCP更省token,准确率更高。只要网站方面不封号,通用网页操作以后对于Agent不是难题了。 开启WebMCP的地址:chrome://flags/#enable-webmcp-testing
avatar
Gorden Sun
4天前
Claude交互式UI的原理分析和开源实现 这篇文章逆向了Claude交互式UI的原理: 本质是工具调用,交互式UI的部分直接注入DOM渲染,没有使用iframe的方式,所以能实现流式渲染。为了保证渲染效果,严格限定了UI规范,例如禁止渐变和阴影等。 开源的这个方案就比较简单粗暴,直接使用了iframe,缺点是不能实时渲染且笨重,优点是兼容各家LLM。 开源方案Github:
avatar
Gorden Sun
5天前
Claude Opus 4.6和Sonnet 4.6正式支持100万上下文 · 不加价(之前超过200K是2倍价格),命中Cache缓存也许花不了太多钱 · 速率不变,不会因为上下文太长而被限制频次 · 单次可处理的图片和PDF从100页提升到600页 · Opus 4.6在100万上下文时的召回率达到78.3%,远高于GPT 5.4的36.6%,对于完成大型复杂项目会有显著提升 · Max、Team和企业用户的Claude Code默认开启100万上下文,5x Max太值了 官方介绍:
avatar
Gorden Sun
5天前
AI资讯日报,3月13日:
avatar
Gorden Sun
5天前
Google地图大幅更新 新增2个核心功能:Ask Maps(对话式地图问答)和Immersive Navigation(沉浸式导航) Ask Maps:能处理多条件、个性化的复杂查询,例如“手机快没电了,哪里能充电又不用排长队买咖啡?”。实现这一功能靠的是底层整合了超过3亿个地点信息和5亿+贡献者的评论数据,回答中包含预计到达时间和真人实用建议 Immersive Navigation:全新3D视图实时反映周围建筑、立交桥和地形,关键路段会标注车道线、人行横道、红绿灯和停车标志;智能缩放和透明建筑效果帮助提前预判复杂转弯和变道; 官方介绍:
avatar
Gorden Sun
5天前
谷歌收购的Producer AI我通过了Waitlist,是个一站式AI MV平台。 可以生成带歌词的音乐(Lyria 2我记得不行)、支持中文,水平比Suno V5稍差,生成的音乐可以一键生成MV视频(视频里的XXX是因为字幕不支持中文)
#谷歌收购 #Producer AI #AI MV平台 #歌词生成 #音乐创作 #中文支持 #视频生成 #Suno v5
avatar
Gorden Sun
5天前
Claude支持生成可交互的图表 免费用户也能用,直接在聊天对话框里展示。
avatar
Gorden Sun
5天前
Wholembed v3:超高性能的多模态检索模型 能同时检索文本、图片、音频、视频,在LIMIT和BrowseComp-Plus两大评测上均达到最佳水平,既能像数据库检索一样精准,也能像向量检索一样按相似性查询。使用晚交互(Late Interaction)的方式平衡精度和效率。 LIMIT是专门用来测试语义检索的评测,传统的词法匹配方法BM25大幅碾轧1B参数的大模型,Wholembed是首个超越BM25的大模型。 BrowseComp-Plus是用来评测检索模型能否帮助Agent回答复杂的问题,得分越高对Agent的帮助越大。 官方介绍:
...
© 2025 news.news. All rights reserved. 0.06155 秒. v1.0.46
我的评论