#语音交互

4个月前

Google 宣布正在将Gemini 深度整合进 Google Maps，为导航、地标识别、语音交互与视觉探索带来全新体验。感觉 Google 这波是把 Maps 升级成「懂你的 AI 副驾驶」了 🚗 Gemini 深度接入 Google Maps，几个我觉得很爽的点：直接语音聊：一路问吃的、找充电桩、报路况、顺手让它帮你加日历，都用说的就行地标导航：不再是“500 米右转”，而是“在某某餐厅后右转”，对路痴和新地方超友好主动交通提醒：即使没开导航，也会提示前方封路、堵车、事故之类 Lens + Gemini：到地方后，掏出手机对着店/建筑一拍，就能问「这是哪？好吃吗？有什么推荐？」简单说：以前地图只负责「告诉你怎么走」，现在 Gemini + Maps 更像一个懂路况、懂你需求、还能帮你做决定的副驾。

Google Gemini 2.5发布引发AI模型性价比热议· 475 条信息

OpenAI新德里发布会：ChatGPT语音翻译功能引发热议· 869 条信息

#Google Maps #Gemini #AI副驾驶 #语音交互 #地标导航

5个月前

过去七个月，AI领域的变化像潮水般涌来，有些我们已经能感受到，有些还在酝酿。先说说那些让我们能更轻松对话的工具，像N8N这样能自动生成节点的智能助手，已经悄悄出现在我们身边了。它就像一个贴心的小管家，能帮我们处理对话中的各种细节，让交流变得更顺畅。再看视频创作，现在AI做视频的工具多到数不清，就像天上的星星一样。而且它们不再是千篇一律的，开始有了自己的专长，有的擅长做动画，有的特别会剪辑，满足不同人的需求。这就像餐厅里的厨师，有的专攻川菜，有的拿手粤菜，各有特色。还有一个大趋势，就是把现实世界的东西变成虚拟世界的内容。现在有了3D模型和“世界模型”技术，我们拍的照片、录的视频，甚至家里的家具、街景，都能巧妙地变成游戏场景或者数字艺术，这就像给现实世界开了一扇通往虚拟世界的门。语音交互也越来越普及了。以前我们用语音输入可能还会磕磕绊绊，现在大家已经慢慢习惯了，比如对着手机说“帮我订张票”，或者用像Wispr这样的工具和对方说话，就像打电话一样自然。这背后，是AI在语音识别和理解上的进步，让我们和机器的交流更像和人聊天。说到机器人，虽然现在的机器人还不像电影里那样能帮我们做所有事，但资本市场对它的热情却很高，不少相关公司的股票都涨得不错。这就像人们对未来科技的期待，虽然现实还有距离，但想象空间很大。 AI资产的数字登记虽然还没正式开始，但相关的需求已经提出来了。就像我们买了房子要登记房产证一样，以后AI生成的图片、音乐、代码这些数字创作，也需要有专门的“身份证”，这才能更好地保护创作者的权益。最近MCP（一种AI应用框架）特别火，谷歌的AP2（另一个AI项目）也发布了，就像行业里突然出现了新的“操作系统”，能让开发者更方便地搭积木、建模型，大大降低了AI开发的门槛。还有一个现象，就是“一人公司”越来越多。像Base44这样的平台，让一个人就能快速组建小团队，完成项目。这就像现在流行的“斜杠青年”，一个人既能写代码，又能做设计，还能搞运营，灵活又高效。虽然大公司还在裁员，但有一个方向特别缺人，就是懂AI的人才。不管是互联网大厂还是创业公司，都在抢这方面的人才，就像我们现在抢“网红”一样，谁有真本事谁就能被重用。最后说说学习领域，成人教育里那些特别细分的“微专业”还没完全火起来，但是“氛围编程”相关的课程却越来越多。“氛围编程”听起来有点抽象，其实就是让编程变得更轻松、更符合人的情绪和工作环境，就像现在流行的“沉浸式办公”，让学习和工作都更有感觉。总的来说，过去七个月，AI技术就像在搭积木，一个个新的工具、新的应用、新的需求冒出来，有的已经落地，有的还在成长。虽然里面有很多不确定性，但大方向很明确，就是让AI更懂我们，更融入我们的生活和工作。这就像我们在爬山，虽然路还很长，但每一步都能看到新的风景。

#AI #人工智能 #n8n #视频创作 #3D模型 #语音交互 #机器人 #数字登记

Frank Wang 玉伯

6个月前

用户视角下，电脑有三要素：显示器、鼠标、键盘。 iPhone 干掉了鼠标，隐藏了键盘，放大了显示器，成为了 Super Hardware. Wispr Flow 借助 AI 终于干掉了键盘。只需 Voice 就能自然交互的某个应用，会有大机会成为 AI 时代的 Super App. 只需 Voice，不需要鼠标、键盘、显示屏，同时又能完成绝大部分需求的某个硬件，大概率就是新一代 iPhone，长得将会完全不像 iPhone. 不光下一代抖音已经在路上，下一代 iPhone 也可能已经在路上。

#iPhone #AI #语音交互 #未来硬件 #Super App

Frank Wang 玉伯

6个月前

用户视角，电脑有三要素：显示器、鼠标、键盘。 iPhone 干掉了鼠标，隐藏了键盘，放大了显示器，成为了 Super Hardware. Wispr Flow 借助 AI 终于干掉了键盘。某个只需 Voice 就能自然交互的应用，有大机会成为 AI 时代的 Super App. 某个只需 Voice，不需要鼠标、键盘、显示屏，同时又能完成绝大部分需求的硬件，大概率就是新一代 iPhone，长得将会完全不像 iPhone. 不光下一代抖音已经在路上，下一代 iPhone 也可能已经在路上。

苹果Liquid Glass：开发者适配陷两难，AI助力AR或成未来· 104 条信息

#iPhone #AI #语音交互 #未来硬件 #Super App

9个月前

想清楚 OpenAI Realtime API 以及 Gemini Live API是什么了： Realtime API = ASR + TTS + 意图识别小模型。更多的是作为语音交互Agent的接入层。

OpenAI新德里发布会：ChatGPT语音翻译功能引发热议· 869 条信息

#OpenAI #Realtime API #Gemini Live API #ASR #TTS #语音交互 #意图识别 #AI

10个月前

在 GitHub 上发现一个 100% 本地替代 Manus AI 的开源解决方案：AgenticSeek。基于本地推理模型和智能代理系统，能够自主浏览网页、编写代码、规划任务，还支持语音交互，就像钢铁侠电影里的 Jarvis（贾维斯）一样酷炫。 GitHub：主要功能： - 完全本地化运行，所有数据保留在设备上零云端依赖 - 智能网页浏览，可自动搜索信息和填写表单 - 自主编程助手，支持 Python、C、Go、Java 等多种语言 - 智能代理选择系统，自动匹配最适合的任务处理方式 - 语音交互功能，支持语音输入和文本转语音输出 - 复杂任务规划执行，能将大型任务分解为步骤完成提供详细的安装配置教程，建议至少使用 DeepSeek 14B 以上参数的模型，对电脑性能配置有一定要求。

#GitHub #开源 #AI技术 #AgenticSeek #本地化 #智能代理 #语音交互 #自主编程 #网页浏览 #安全隐私 #开源项目

10个月前

Google 展示 Android XR 智能眼镜原型机长时间记忆、实时语音交互、根据用户行为自动提供帮助 Android XR 智能眼镜功能：上下文理解：通过摄像头和麦克风获取用户视角，结合地理位置信息理解当前场景和任务。语音交互：随时启动语音助手，无需手动唤醒、无需使用手机。实时辅助：根据用户行为自动推荐动作，如导航、查资料、拍照、翻译等。记忆与个性化：具备长时间任务记忆功能，理解用户偏好、事务上下文。与 Gemini 整合，实现真正的视觉助手

#Google #Android #XR #智能眼镜 #语音交互 #实时辅助

央广网-央广网

11个月前

智能家电语音交互技术通用要求国家标准发布

从结构设计、安全性、功能性、标注标识等方面提出技术要求。

#智能家电 #语音交互 #国家标准

中新网-中国新闻网

11个月前

以后家电这样“听话”！智能家电语音交互国家标准发布

#智能家电 #语音交互 #国家标准发布

1年前

兄弟们，这个强啊，效果真的挺棒复旦大学OpenMOSS人工智能开放实验室推出首个端到端实时语音交互模型中文语音能力感觉和GPT 4o 的高级语音很接近 - 低于 200 毫秒，支持语音打断和自然互动 - 可根据指令生成多情感、多风格的语音，包括模仿特定角色的情绪。 - 丰富的情感控制：支持生成多种情感语音，如欢快、严肃、悲伤等。语音风格多样化：可以模拟不同的角色语调、情绪和语气。支持生成说唱、戏剧化台词、机器人声效、低语耳语、方言等风格

#复旦大学 #OpenMOSS #人工智能 #语音交互 #实时语音 #情感控制 #语音风格 #GPT-4 #中文语音