时政
财经
科技
虚拟货币
其他
登录
#多模态输入
关注
karminski-牙医
1周前
阶跃星辰刚刚发了个新模型 GELab-Zero-4B-preview 这是个专注于 Android 系统的GUI 代理模型,针对交互界面元素(点击、输入、滑动、等待等)进行了优化,可以支持跨多个应用(如餐饮、交通、购物、社交等)执行多步骤长时程任务。 模型基于Qwen3-VL-4B-Instruct魔改,支持多模态输入(图像和视频)。 最重要的是,这个模型只有4B,感觉群控佬要兴奋起来了。随着AI能力的增强,感觉人机检测难度上升到了前所未有的高度了。 模型地址:
#阶跃星辰
#GELab-Zero-4B-preview
#Android GUI代理模型
#多模态输入
#人机检测
分享
评论 0
0
sitin
1个月前
豆包豆包编程升级,新增创作模式,让创意轻松实现,让零基础用户也能轻松开发网站和应用。 此次升级引入多模态输入功能,支持文字、图片、文件、画板等多种输入形式,AI可自动理解并补全逻辑。 新增Agent多工具协作系统,自动联网搜索素材、配图、检查代码,确保生成内容的准确性和可用性。
深度学习模型升级引发AI能力大跃进,行业迎新变革· 143 条信息
#豆包编程
#编程升级
#创作模式
#多模态输入
#AI辅助
分享
评论 0
0
sitin
3个月前
OpenAI 正式发布 Realtime API 降价20% 支持MCP、图像输入、可接入电话系统、新的语音和优化 与传统方案(语音转文字 + 大模型生成文字 + 文字转语音)不同,Realtime API 直接通过一个统一模型完成 语音输入-语音输出,从而减少延迟、保留语气细节,并生成更自然的对话体验。 1.模型能力的全方位提升 语音质量:生成的声音更接近真人(语调、停顿、速度),并发布新声音和优化旧声音。 语言能力:支持句内无缝切换语言、识别和表达非语言声音(如笑声)、跨语言准确朗读数字字母组合。 智能水平:在推理能力、指令遵循精度和函数调用能力三大基准测试上,相比前代模型均有显著提升(准确率提升超10个百分点)。 2.新增关键功能与优化 流程优化:支持异步函数调用,允许在后台执行长时间任务(如查数据库)时不打断前台对话。 功能扩展 (MCP):可通过 Model Context Protocol 轻松连接远程工具服务器,极大扩展了模型的能力边界。 多模态输入 (图像):除了语音和文字,现在可以输入图片让模型理解和分析。 企业集成 (SIP):支持 SIP 协议,使其能直接接入传统电话网络,用于呼叫中心等场景。 部署效率 (可复用提示):提供“模板化”的提示词管理功能,便于大规模标准化部署。
OpenAI大幅降价,o3模型API调用费用骤降80%· 6 条信息
#OpenAI
#Realtime API
#语音技术
#多模态输入
#企业集成
分享
评论 0
0
个人主页
通知
我的投稿
我的关注
我的拉黑
我的评论
我的点赞