sitin
1个月前
EmbeddingGemma 旨在解决当前大多数嵌入模型依赖云端运行所带来的数据隐私、网络依赖和高资源占用问题。它是一个专为在本地和设备端(如手机、笔记本)高效运行而设计的开源嵌入模型。 核心特性 轻量高效:模型经过量化后,运行内存占用低于200MB,使其能够在移动设备和PC上顺畅地离线运行。 高性能:尽管体积小,但其在多项基准测试中的表现媲美甚至优于更大的同类模型。 可变输出维度:支持 Matryoshka 表示学习,可灵活输出从768维到128维的向量,允许在精度和效率之间进行权衡。 快速推理:在边缘计算硬件(如EdgeTPU)上可实现极快的推理速度(<15ms,处理256个token时)。 多语言支持:在包含100多种语言的语料上训练,在多语言语义理解任务上表现出色。 主要应用场景 离线检索增强生成 (RAG):构建完全离线的问答系统和聊天机器人。 离线语义搜索:在没有网络的情况下,快速精准地搜索本地文件、邮件、笔记等内容。 文本分类与聚类:用于任务自动分类和用户意图识别等。 隐私敏感应用:所有数据处理均在本地完成,有效保护用户数据隐私。 工具与生态集成 模型与主流开发工具链高度兼容,包括: sentence-transformers, transformers, llama.cpp, MLX, Ollama 等推理库。 LangChain, LlamaIndex 等应用框架。 Weaviate, Cloudflare 等向量数据库和部署平台。 模型权重可在 Hugging Face、Kaggle 和 Google Vertex AI 平台获取。 EmbeddingGemma 的核心价值在于提供了一个不牺牲性能的隐私优先解决方案,让开发者能够构建完全离线、高效且强大的AI应用(如搜索和问答),打破了此类应用对云端的依赖。
llm幻觉的分类、根本原因与解决方案 |openai 最新blog 《Why language models hallucinate》 === 信心满满张嘴就来、一本正经胡说八道,人类如此嘲讽llm的“幻觉” (Hallucination) 。 (其实,人类自己在这方面也相当不差🤣) 作为用户,以及有大量学习经验的人类学习者,我们可以根据实际经验,把 llm 幻觉大致分为两种:一种是预训练阶段,llm学习并记住了错误的知识,然后把错误信息当作正确知识,用于回答中(人也一样);第二种是guessing,而不是直接说“我不知道”,或者给出多种可能性的不确定回答(人也一样)。 openai 分享了对llm幻觉的研究。llm 幻觉的根本原因,不只是模型本身,而在两个地方: 一个是llm的预训练阶段,数据局限性导致的幻觉;llm通过学习海量文本来“预测下一个词”,对于有规律的模式(语法、编程、通用知识),llm可以学得很好;但是,对于低频的事实(例如,路人甲xxx的宠物狗的生日),这些信息在训练数据中无规律可循,导致了llm的第一种幻觉; 另一个是以准确率得分为主的评估机制(accuracy-based evals),错误地奖励 llm的“战略性猜测”/瞎猜行为,错误地惩罚llm 放弃回答/“我不知道”的行为,这导致了第二种幻觉; gpt-5 的一大提升,就是在消除llm幻觉上。gpt-5,学会了“谦卑”,某种意义上体现了某种程度的“元认知”:减少了“战略性猜测”行为,而选择“放弃”,直接说自己不知道。 这篇文章很有趣,值得读一读~~