#多模态输入

karminski-牙医

3个月前

阶跃星辰刚刚发了个新模型 GELab-Zero-4B-preview 这是个专注于 Android 系统的GUI 代理模型，针对交互界面元素（点击、输入、滑动、等待等）进行了优化，可以支持跨多个应用（如餐饮、交通、购物、社交等）执行多步骤长时程任务。模型基于Qwen3-VL-4B-Instruct魔改，支持多模态输入（图像和视频）。最重要的是，这个模型只有4B，感觉群控佬要兴奋起来了。随着AI能力的增强，感觉人机检测难度上升到了前所未有的高度了。模型地址：

#阶跃星辰 #GELab-Zero-4B-preview #Android GUI代理模型 #多模态输入 #人机检测

4个月前

豆包豆包编程升级，新增创作模式，让创意轻松实现，让零基础用户也能轻松开发网站和应用。此次升级引入多模态输入功能，支持文字、图片、文件、画板等多种输入形式，AI可自动理解并补全逻辑。新增Agent多工具协作系统，自动联网搜索素材、配图、检查代码，确保生成内容的准确性和可用性。

深度学习模型升级引发AI能力大跃进，行业迎新变革· 143 条信息

#豆包编程 #编程升级 #创作模式 #多模态输入 #AI辅助

6个月前

OpenAI 正式发布 Realtime API 降价20% 支持MCP、图像输入、可接入电话系统、新的语音和优化与传统方案（语音转文字 + 大模型生成文字 + 文字转语音）不同，Realtime API 直接通过一个统一模型完成语音输入-语音输出，从而减少延迟、保留语气细节，并生成更自然的对话体验。 1.模型能力的全方位提升语音质量：生成的声音更接近真人（语调、停顿、速度），并发布新声音和优化旧声音。语言能力：支持句内无缝切换语言、识别和表达非语言声音（如笑声）、跨语言准确朗读数字字母组合。智能水平：在推理能力、指令遵循精度和函数调用能力三大基准测试上，相比前代模型均有显著提升（准确率提升超10个百分点）。 2.新增关键功能与优化流程优化：支持异步函数调用，允许在后台执行长时间任务（如查数据库）时不打断前台对话。功能扩展 (MCP)：可通过 Model Context Protocol 轻松连接远程工具服务器，极大扩展了模型的能力边界。多模态输入 (图像)：除了语音和文字，现在可以输入图片让模型理解和分析。企业集成 (SIP)：支持 SIP 协议，使其能直接接入传统电话网络，用于呼叫中心等场景。部署效率 (可复用提示)：提供“模板化”的提示词管理功能，便于大规模标准化部署。

OpenAI大幅降价，o3模型API调用费用骤降80%· 6 条信息

#OpenAI #Realtime API #语音技术 #多模态输入 #企业集成