Stream-Omni：多模态聊天框架实现的效果类似GPT-4o，支持文本、图片、语音输入，同时输出文本和语音，不是原生多模态模型，而是把视觉和语音跟文本对齐，成本更低，适合自研多模态交互时使用。 Github：

#多模态 #GPT-4o #文本 #图片 #语音 #视觉 #自研 #交互

相关新闻

sitin

13小时前

GitHub 最近刷到一个挺狠的项目：Project NOMAD，13.5k Star。它最打动我的点不是“功能多”，而是——断网也能用。现在大家都在聊 AI、多模态、智能体，但很多工具本质上都绑死在云端。NOMAD 反着来：它把本地 AI 聊天、离线维基、Khan Academy 课程、离线地图、笔记、加密工具这些东西，全打包进一台机器里。装好之后，就算拔掉网线，照样能查资料、学东西、跑本

Panda

2天前

本来一直在纠结买理想还是领先的友商，体感上两车自动驾驶水平都很高，舒适度也很不错。虽然特斯拉开着爽，但短期确实没有中国的FSD，这年头谁还想自己开车，湾区再开吧对于我们这种人是不信销售的话的，技术公开资料又不够多，也不是特别刚需，所以一直没下手。直到理想把 MindVLA-o1 的架构图放出来，对做 Research 的人来说一眼看过去就觉得非常合理啊！多模态 MoE + 3D ViT

Geek

2天前

Style Prompt Studio PPT 美术总监提示词仓库 🔍 深度搜索平台高赞笔记 - 快速提炼爆款逻辑 📝 擅长总结和比喻 - 让复杂主题通俗易懂 🎨 多用图形化表现 - 视觉优先，提升理解 📊 数据说话策略 - 每个模块包含具体数字 💬 金句总结 - 必要时展示关键洞察

铁锤人

4天前

端内入口看这三张图片

𝙩𝙮≃𝙛{𝕩}^A𝕀²·ℙarad𝕚g𝕞

1周前

我觉得这一段（3:28左右讲贾樟柯的长镜头开始15分钟）讲Cambrian-S论文（），的才是这7个小时访谈的精华。对CV确实saining xie有自己独到的理解。语言是L0，多模态是L1，video streaming是L2。背后是vision的多层次表征hierarchical representation。 CV还是在感知层，这是何凯明谢赛宁们对AI的切入点。 Ilya们切入了数字神经

Stream-Omni：多模态聊天框架 实现的效果类似GPT-4o，支持文本、图片、语音输入，同时输出文本和语音，不是原生多模态模型，而是把视觉和语音跟文本对齐，成本更低，适合自研多模态交互时使用。 Github：

相关新闻

Stream-Omni：多模态聊天框架实现的效果类似GPT-4o，支持文本、图片、语音输入，同时输出文本和语音，不是原生多模态模型，而是把视觉和语音跟文本对齐，成本更低，适合自研多模态交互时使用。 Github：