时政
财经
科技
虚拟货币
其他
登录
#语音交互
关注
sitin
1周前
Google 宣布正在将Gemini 深度整合进 Google Maps,为导航、地标识别、语音交互与视觉探索带来全新体验。 感觉 Google 这波是把 Maps 升级成「懂你的 AI 副驾驶」了 🚗 Gemini 深度接入 Google Maps,几个我觉得很爽的点: 直接语音聊:一路问吃的、找充电桩、报路况、顺手让它帮你加日历,都用说的就行 地标导航:不再是“500 米右转”,而是“在某某餐厅后右转”,对路痴和新地方超友好 主动交通提醒:即使没开导航,也会提示前方封路、堵车、事故之类 Lens + Gemini:到地方后,掏出手机对着店/建筑一拍,就能问「这是哪?好吃吗?有什么推荐?」 简单说: 以前地图只负责「告诉你怎么走」, 现在 Gemini + Maps 更像一个懂路况、懂你需求、还能帮你做决定的副驾。
Google Gemini 2.5发布引发AI模型性价比热议· 280 条信息
OpenAI新德里发布会:ChatGPT语音翻译功能引发热议· 654 条信息
#Google Maps
#Gemini
#AI副驾驶
#语音交互
#地标导航
分享
评论 0
0
Y11
1个月前
过去七个月,AI领域的变化像潮水般涌来,有些我们已经能感受到,有些还在酝酿。先说说那些让我们能更轻松对话的工具,像N8N这样能自动生成节点的智能助手,已经悄悄出现在我们身边了。它就像一个贴心的小管家,能帮我们处理对话中的各种细节,让交流变得更顺畅。 再看视频创作,现在AI做视频的工具多到数不清,就像天上的星星一样。而且它们不再是千篇一律的,开始有了自己的专长,有的擅长做动画,有的特别会剪辑,满足不同人的需求。这就像餐厅里的厨师,有的专攻川菜,有的拿手粤菜,各有特色。 还有一个大趋势,就是把现实世界的东西变成虚拟世界的内容。现在有了3D模型和“世界模型”技术,我们拍的照片、录的视频,甚至家里的家具、街景,都能巧妙地变成游戏场景或者数字艺术,这就像给现实世界开了一扇通往虚拟世界的门。 语音交互也越来越普及了。以前我们用语音输入可能还会磕磕绊绊,现在大家已经慢慢习惯了,比如对着手机说“帮我订张票”,或者用像Wispr这样的工具和对方说话,就像打电话一样自然。这背后,是AI在语音识别和理解上的进步,让我们和机器的交流更像和人聊天。 说到机器人,虽然现在的机器人还不像电影里那样能帮我们做所有事,但资本市场对它的热情却很高,不少相关公司的股票都涨得不错。这就像人们对未来科技的期待,虽然现实还有距离,但想象空间很大。 AI资产的数字登记虽然还没正式开始,但相关的需求已经提出来了。就像我们买了房子要登记房产证一样,以后AI生成的图片、音乐、代码这些数字创作,也需要有专门的“身份证”,这才能更好地保护创作者的权益。 最近MCP(一种AI应用框架)特别火,谷歌的AP2(另一个AI项目)也发布了,就像行业里突然出现了新的“操作系统”,能让开发者更方便地搭积木、建模型,大大降低了AI开发的门槛。 还有一个现象,就是“一人公司”越来越多。像Base44这样的平台,让一个人就能快速组建小团队,完成项目。这就像现在流行的“斜杠青年”,一个人既能写代码,又能做设计,还能搞运营,灵活又高效。 虽然大公司还在裁员,但有一个方向特别缺人,就是懂AI的人才。不管是互联网大厂还是创业公司,都在抢这方面的人才,就像我们现在抢“网红”一样,谁有真本事谁就能被重用。 最后说说学习领域,成人教育里那些特别细分的“微专业”还没完全火起来,但是“氛围编程”相关的课程却越来越多。“氛围编程”听起来有点抽象,其实就是让编程变得更轻松、更符合人的情绪和工作环境,就像现在流行的“沉浸式办公”,让学习和工作都更有感觉。 总的来说,过去七个月,AI技术就像在搭积木,一个个新的工具、新的应用、新的需求冒出来,有的已经落地,有的还在成长。虽然里面有很多不确定性,但大方向很明确,就是让AI更懂我们,更融入我们的生活和工作。这就像我们在爬山,虽然路还很长,但每一步都能看到新的风景。
#AI
#人工智能
#n8n
#视频创作
#3D模型
#语音交互
#机器人
#数字登记
分享
评论 0
0
Frank Wang 玉伯
2个月前
用户视角下,电脑有三要素:显示器、鼠标、键盘。 iPhone 干掉了鼠标,隐藏了键盘,放大了显示器,成为了 Super Hardware. Wispr Flow 借助 AI 终于干掉了键盘。只需 Voice 就能自然交互的某个应用,会有大机会成为 AI 时代的 Super App. 只需 Voice,不需要鼠标、键盘、显示屏,同时又能完成绝大部分需求的某个硬件,大概率就是新一代 iPhone,长得将会完全不像 iPhone. 不光下一代抖音已经在路上,下一代 iPhone 也可能已经在路上。
#iPhone
#AI
#语音交互
#未来硬件
#Super App
分享
评论 0
0
Frank Wang 玉伯
2个月前
用户视角,电脑有三要素:显示器、鼠标、键盘。 iPhone 干掉了鼠标,隐藏了键盘,放大了显示器,成为了 Super Hardware. Wispr Flow 借助 AI 终于干掉了键盘。某个只需 Voice 就能自然交互的应用,有大机会成为 AI 时代的 Super App. 某个只需 Voice,不需要鼠标、键盘、显示屏,同时又能完成绝大部分需求的硬件,大概率就是新一代 iPhone,长得将会完全不像 iPhone. 不光下一代抖音已经在路上,下一代 iPhone 也可能已经在路上。
苹果Liquid Glass:开发者适配陷两难,AI助力AR或成未来· 97 条信息
#iPhone
#AI
#语音交互
#未来硬件
#Super App
分享
评论 0
0
Leo Xiang
5个月前
想清楚 OpenAI Realtime API 以及 Gemini Live API是什么了: Realtime API = ASR + TTS + 意图识别小模型。 更多的是作为语音交互Agent的接入层。
OpenAI新德里发布会:ChatGPT语音翻译功能引发热议· 654 条信息
#OpenAI
#Realtime API
#Gemini Live API
#ASR
#TTS
#语音交互
#意图识别
#AI
分享
评论 0
0
GitHubDaily
5个月前
在 GitHub 上发现一个 100% 本地替代 Manus AI 的开源解决方案:AgenticSeek。 基于本地推理模型和智能代理系统,能够自主浏览网页、编写代码、规划任务,还支持语音交互,就像钢铁侠电影里的 Jarvis(贾维斯)一样酷炫。 GitHub: 主要功能: - 完全本地化运行,所有数据保留在设备上零云端依赖 - 智能网页浏览,可自动搜索信息和填写表单 - 自主编程助手,支持 Python、C、Go、Java 等多种语言 - 智能代理选择系统,自动匹配最适合的任务处理方式 - 语音交互功能,支持语音输入和文本转语音输出 - 复杂任务规划执行,能将大型任务分解为步骤完成 提供详细的安装配置教程,建议至少使用 DeepSeek 14B 以上参数的模型,对电脑性能配置有一定要求。
#GitHub
#开源
#AI技术
#AgenticSeek
#本地化
#智能代理
#语音交互
#自主编程
#网页浏览
#安全隐私
#开源项目
分享
评论 0
0
小互
5个月前
Google 展示 Android XR 智能眼镜原型机 长时间记忆、实时语音交互、根据用户行为自动提供帮助 Android XR 智能眼镜功能: 上下文理解:通过摄像头和麦克风获取用户视角,结合地理位置信息理解当前场景和任务。 语音交互:随时启动语音助手,无需手动唤醒、无需使用手机。 实时辅助:根据用户行为自动推荐动作,如导航、查资料、拍照、翻译等。 记忆与个性化:具备长时间任务记忆功能,理解用户偏好、事务上下文。 与 Gemini 整合,实现真正的视觉助手
#Google
#Android
#XR
#智能眼镜
#语音交互
#实时辅助
分享
评论 0
0
央广网-央广网
7个月前
智能家电语音交互技术通用要求国家标准发布
从结构设计、安全性、功能性、标注标识等方面提出技术要求。
#智能家电
#语音交互
#国家标准
分享
评论 0
0
中新网-中国新闻网
7个月前
以后家电这样“听话”!智能家电语音交互国家标准发布
#智能家电
#语音交互
#国家标准发布
分享
评论 0
0
小互
9个月前
兄弟们,这个强啊,效果真的挺棒 复旦大学OpenMOSS人工智能开放实验室 推出首个端到端实时语音交互模型 中文语音能力感觉和GPT 4o 的高级语音很接近 - 低于 200 毫秒,支持语音打断和自然互动 - 可根据指令生成多情感、多风格的语音,包括模仿特定角色的情绪。 - 丰富的情感控制:支持生成多种情感语音,如欢快、严肃、悲伤等。 语音风格多样化:可以模拟不同的角色语调、情绪和语气。支持生成说唱、戏剧化台词、机器人声效、低语耳语、方言等风格
#复旦大学
#OpenMOSS
#人工智能
#语音交互
#实时语音
#情感控制
#语音风格
#GPT-4
#中文语音
分享
评论 0
0
个人主页
通知
我的投稿
我的关注
我的拉黑
我的评论
我的点赞