Gorden Sun

Gorden Sun

0 关注者

7个月前

VITA-1.5:开源版视频+语音模型 效果类似ChatGPT APP的视频交互,能看能听能说,但不是原生多模态。视觉多模态LLM使用的是QWen2.5,语音延迟只有1.5秒,且支持打断。 Github:

#VITA-1.5 #开源 #视频模型 #语音模型 #ChatGPT #视频交互 #视觉多模态 #QWen2.5 #语音延迟 #GitHub

相关新闻

placeholder

sitin

12小时前

谷歌发布的 LangExtract 确实是一款全新的 100% 开源 Python 库,专门用于从非结构化文本文档中高效提取结构化信息。 以下是 LangExtract 的核心亮点: 开源免费:项目托管在 GitHub 上,采用 Apache 2.0 许可证,可自由使用和修改。 基于大语言模型(LLM):支持 Google Gemini、OpenAI 等多种云端和本地模型(如通过 Ollam

placeholder

Mr Panda

14小时前

有人用豆包练口语吗,试了一下感觉比chatgpt 效果好

placeholder

代码家

17小时前

有个朋友又微信我说在抖音 app 里看到了我之前开源的代码,我俩开始感慨说要是开源后的代码能按装机量收费,哪怕一台设备 1 毛钱,也可以 23 岁就退休养老了 可惜,开源的商业模式太糟糕了,vibe coding 以后代码就更不值钱了 🙁

placeholder

Jesse Lau 遁一子

18小时前

我的codex恢复可以用了。 感觉chatGPT的codex和web的智商对比就像周瑜和蒋干的差别😙

placeholder

Gorden Sun

1天前

DINOv3:Meta开源的基础视觉模型 CLIP的竞品,能够完成图片分类、分隔物体、追踪物体等各种视觉任务。模型大小从21M到7B,有多个版本。 Github:

© 2025 news.news. All rights reserved. 0.19662 秒. v1.0.42
我的评论