dontbesilent
3个月前
所谓的「普通人」不知道怎么用好 AI,其实很多时候都不是提示词的问题,是不理解 AI 的输入和输出 我在这里的一个不成熟的推测是:大模型没有做到的 AI 普及率,可能会靠 agent 实现 举个例子,用户希望这个 AI 可以分析某个短视频博主的视频,然后帮他自己改进短视频 那么第一步,他应该发什么内容给 AI,就成了大问题 1、如果你是想直接发视频给 AI,可以用 gemini,但是用户需要自己下载视频,多数用户不知道如何下载,这一步和 AI 无关,这就是「输入问题」 2、如果你想发送大量视频给 AI 分析,就需要一个工作流了,手搓工作流,超出 99% 用户的承受范围 3、如果你是想发送大量短视频文稿给 AI,需要选择上下文够长的大模型(多数用户不知道什么是上下文),并且要用 get 笔记、通义听悟、各种 chrome 插件实现视频的批量下载、转录,这个步骤之多,也劝退了 99% 的人 4、如果你希望一句话实现让 AI 分析某个博主的短视频,用 manus、genspark 可以实现(也未必一次成功),而这两个产品的知名度,远远不如 gpt 等大模型,更不要说普及到豆包用户了 5、就算 AI 成功帮你分析完了,你希望 AI 如何介入修改你的短视频呢?直接给剪映装上 gpt5 吗?目前还不现实。要用现成的 AI 剪辑工具吗?大部分对时长、视频体积的支持都很烂。万一需要你修改口播内容呢?难道还要再把 heygen、11 labs 都装进来,给你做声音克隆、对口型吗? 简单讲是输入、输出的问题,考虑到实操程度,都是工程化落地问题 如果没有 manus、genspark 这种一键完成 xxx 的 agent,多数用户是拒绝使用大模型的 AI 大模型和一个成熟的 AI agent 在商业普及上的区别,我认为是 2007 年初代 iPhone 对比 2010 年的 iPhone 4 07 年的 iPhone 是很牛逼,但是你连 app store 都没有,大众是不认的
sitin
3个月前
EmbeddingGemma 旨在解决当前大多数嵌入模型依赖云端运行所带来的数据隐私、网络依赖和高资源占用问题。它是一个专为在本地和设备端(如手机、笔记本)高效运行而设计的开源嵌入模型。 核心特性 轻量高效:模型经过量化后,运行内存占用低于200MB,使其能够在移动设备和PC上顺畅地离线运行。 高性能:尽管体积小,但其在多项基准测试中的表现媲美甚至优于更大的同类模型。 可变输出维度:支持 Matryoshka 表示学习,可灵活输出从768维到128维的向量,允许在精度和效率之间进行权衡。 快速推理:在边缘计算硬件(如EdgeTPU)上可实现极快的推理速度(<15ms,处理256个token时)。 多语言支持:在包含100多种语言的语料上训练,在多语言语义理解任务上表现出色。 主要应用场景 离线检索增强生成 (RAG):构建完全离线的问答系统和聊天机器人。 离线语义搜索:在没有网络的情况下,快速精准地搜索本地文件、邮件、笔记等内容。 文本分类与聚类:用于任务自动分类和用户意图识别等。 隐私敏感应用:所有数据处理均在本地完成,有效保护用户数据隐私。 工具与生态集成 模型与主流开发工具链高度兼容,包括: sentence-transformers, transformers, llama.cpp, MLX, Ollama 等推理库。 LangChain, LlamaIndex 等应用框架。 Weaviate, Cloudflare 等向量数据库和部署平台。 模型权重可在 Hugging Face、Kaggle 和 Google Vertex AI 平台获取。 EmbeddingGemma 的核心价值在于提供了一个不牺牲性能的隐私优先解决方案,让开发者能够构建完全离线、高效且强大的AI应用(如搜索和问答),打破了此类应用对云端的依赖。