时政
财经
科技
登录
#计算机视觉
关注
Jeff Li
4个月前
根据我开发的『后脑壳识别模型』判断: 右1 曾毓群 右2 马云 右 5 马化腾 右 6 刘永好 右 7 任正非 右 8 王传福 右 10 雷军 后排左二 王兴
#后脑壳识别
#科技人物
#人工智能
#计算机视觉
#商业领袖
分享
评论 0
0
Gorden Sun
5个月前
Janus-Pro:DeepSeek开源原生图片多模态模型 能读图(基于SigLIP-L),能生图(借鉴LlamaGen),分1.5B和7B两个大小。要知道GPT-4o的图片生成多模态模型至今没开放。 模型: Github:
#DeepSeek
#图片多模态模型
#GPT-4o
#开源
#人工智能
#计算机视觉
分享
评论 0
0
宝玉
5个月前
字节的可以直接操作图形界面的原生 GUI 智能体模型UI-TARS,类似于 Claude 的 Computer Use,可以只靠截取的界面图片就能理解并操作软件。 就像我们人类直接看手机或电脑屏幕一样,利用眼睛去“认”,再动手指去“点”。UI-TARS学会了从图片中辨别按钮、输入框、下拉菜单等各种元素,也能知道“这个图标大概率是搜索按钮”“这个区域是文本框”等信息。 UI-TARS具备四个关键能力,来模拟人类使用电脑或手机的过程: 1. 感知(Perception):从截图中识别出界面有哪些元素、它们的文字、图标、位置等。 2. 行动(Action):能够发出点击、滚动、输入文字、拖拽等具体操作指令。 3. 推理(Reasoning):类似于人类的“思考”过程,尤其是比较复杂或多步骤的任务,需要先策划好要怎么做,再一步步执行。如果中途出错,还要思考如何纠正或绕过困难。 4. 记忆(Memory):对过去的操作和获得的信息进行“记忆”,好让下一步决策更准确。 过去很多尝试,往往是把各种工具模块拼在一起——比如:先用某个模型识别界面元素,再把文字描述交给另一个大语言模型推理,然后再用一个脚本执行操作。这些拼装好的框架对特定场景有效,但迁移性差。UI-TARS 的思路是直接使用一个“大模型”进行端到端学习,把对界面截图的理解、对任务目标的分析以及生成下一步点击指令的过程整合在一起,大大提升了灵活性与稳健性。 UI-TARS 不仅有直接的“直觉式”反应(称为System-1思维),还纳入了更深度的“System-2思维”,或者说“慢思考”。它会在做出点击等动作前,先进行多步推理,比如: “先打开浏览器 -> 输入网址 -> 搜索再点击下载链接 -> 安装软件 -> 打开软件” 如果中途失败或走错,它会像人一样反思错误、再尝试新的方案,避免一直卡在同一个问题上。 至于效果,论文上说在某些测试上超过了 Claude 和 GPT-4o,但估计还是得看实际使用场景,所以还是建议有兴趣的自己试试看。 开源项目地址: Huagging face:
#字节
#GUI智能体
#UI-TARS
#软件操作
#智能界面
#计算机视觉
分享
评论 0
0
Dexter Yang ᯅノ🌐🔗🧙🏻♂️👾🦋
5个月前
其实从来没有过「什么都没有」的时代,从来没有「从无到有」、「凭空出世」的科技产品和科技创新,所有新技术都是旧技术的新组合加上「小创新」,都是建立在旧技术之上的(所以会垒加抽象层、会导致前沿和创新总是在更靠近顶层的地方) 比如黄仁勋CES演讲中这两张图就是很具象化的例子 第一层: 用已有的通用GPU技术 (GUGPU 和CUDA编程)和已有的深度学习技术(CNN)组合出革命性的计算机视觉技术成果 AlexNet 第二层:把 AlexNet 中的技术用于已有的其他领域的机器学习,组合演变出各种革命性的感知式 AI 应用(比如理解语音、理解用户个性化需求) 第三层:在感知式 AI 技术(比如 RNN、CNN -> GAN)基础上演变组合出革命性的生成式 AI 技术(Transformer、Diffusion Models) 第四层:用生成式 AI 技术生成万能中间接口(token),加上 RAG 等「小创新」,跟已有的专业软件开发技术(比如 Serverless 和 Web3、Web IDE 和声明式框架/组件)组合,得到像 AI 编程、AI bot 应用这样革命性的能自主工作的 AI Agent 第五层:把 AI Agent 引入到人形机器人、自动驾驶、AR/MR、数字孪生和物理引擎等已有技术的应用中,革命性的让 AI 即将进入日常生活工作方方面面
#科技创新
#黄仁勋
#计算机视觉
#GPU技术
#深度学习
分享
评论 0
0
Massimo
6个月前
Famous painting reimagined by AI [🎞️ a.i.image_video]
#AI艺术
#著名画作
#人工智能
#艺术与科技
#创造力
#高科技
#艺术改编
#计算机视觉
分享
评论 0
0
个人主页
通知
我的投稿
我的关注
我的拉黑
我的评论
我的点赞