Gorden Sun
4周前
Stream-Omni:多模态聊天框架 实现的效果类似GPT-4o,支持文本、图片、语音输入,同时输出文本和语音,不是原生多模态模型,而是把视觉和语音跟文本对齐,成本更低,适合自研多模态交互时使用。 Github:
LysonOber
4周前
当我们思考「记忆」一词时,应该要首先追问数据的读写速度。
wwwgoubuli
4周前
说实话当我接受了 LLM 无状态这个“第一性原理”之后,并且我也练出了相对熟练的技能后: 我是不需要且反对记录我的行为的,我不喜欢 memory 。 工作中构造上下文我自有方法。 生活中你个 AI 最好不要知道我是谁。
背包健客
1个月前
蹦床能把你从飞机上接住吗?😳