#大模型

Y11
1个月前
高端招聘:哔哩哔哩 招 大模型平台研发工程师 - 训练方向(P6) ----- 大模型平台研发工程师 - 训练方向 哔哩哔哩集团 · 上海 职位描述 1.参与B站大模型训练平台建设,配合团队完成训练平台的架构细化与技术落地,参与训练任务调度、数据加载、模型checkpoint管理等核心模块的开发与迭代,保障训练平台基础功能稳定可靠; 2.参与大模型主流训练范式(预训练/后训练)的平台化集成工作,协助完成训练流程的标准化、自动化落地,降低算法团队训练门槛; 3.大模型训练全链路可观测性,参与设计并落地训练过程中的核心监控指标,为训练效率提升与问题定位提供数据支撑; 4.参与训练链路问题排查,配合算法与框架团队,跟踪大模型训练全链路,参与定位并解决训练过程中出现的平台层技术问题,如数据传输瓶颈、分布式训练通信异常等,保障训练任务顺利推进; 职位要求 1.计算机科学、软件工程、人工智能或相关专业本科及以上学历,3年以上AI平台相关经验; 2.具备良好编码能力与扎实的算法功底,熟练掌握Python/Go/C++等至少一种主流编程语言,能高效完成模块开发与调试; 3.熟悉至少一种主流深度学习框架(PyTorch优先),了解其核心原理与分布式训练机制; 4.具备扎实的机器学习/深度学习基础,熟悉Transformer等核心算法,了解大模型训练逻辑与行业应用方向; ------ 报名地址详见: 搜索。
Nagi Yan
1个月前
《为什么大模型总是说着说着就从中文跳成英文?》 因为未来 AI 的终极方向根本不是“记忆”,而是“结构。” 我们都见过这种诡异现象: 你明明开头告诉 AI—— “用中文回答。” 它也答得好好的。 但聊着聊着,它突然切换到英文,好像人格被重置一样。 大多数人以为是“忘记指令”或“上下文不够长”导致的。 错了。 这不是“记忆问题”。 也不是“合规问题”。 更不是“模型突然抽风”。 这是结构问题。 而这件事会直接决定未来 AI 的终极架构走向。 下面我来系统讲讲。 ⸻ **01 AI 为什么突然改用英文? ——因为它的“结构”坍缩了** 你给它的中文指令,其实在模型内部不是“记住了”,而是被临时放进当时的结构中。 但随着对话不断延长: •上下文被压缩 •“注意力”被重新分配 •模型不断重写自己的“当前结构空间” 当“中文优先”这个结构被压薄、被挤掉、被重新解释后, 模型自然会回到它统计意义上的默认语言:英文。 换句话说: AI 并没有忘记你的中文,而是 它不再拥有支持“中文优先”的结构。 它不是“记不住”。 它是没有结构不变量。 ⸻ **02 未来厂商会试图解决,但一定失败** 所有厂商都会尝试这一套: •提高“语言偏好”的优先级 •给指令加权重 •做永久记忆区 •更新 token 优先级机制 •做对话“锁定” 看起来聪明,实际上注定失效。 为什么? 因为优先级不是结构。 只要对话一压缩,一重构,一次重权重, 所有优先级都会被稀释。 最终出现必然结果: 优先级会通货膨胀,直至失效。 因为它永远无法和结构竞争。 这就是为什么现在所有模型都会在长对话后回到“最强结构”的地方—— 也就是训练数据中文本量最大的语言:英文。 ⸻ **03 真正决定模型行为的不是记忆,而是“结构匹配”** 这句话是关键: AI 每一次调用上下文,不是依据优先级,而是依据结构匹配。 也就是说: •你给的指令(中文回答) •是一个结构 •它暂时被放进模型的“结构空间” •但不稳定 •一旦上下文变化,它会丢失 模型生成回答时做的不是“查记忆”,而是: 在当前结构空间里寻找最自洽的路径。 如果中文路径已被压缩掉, 那它就会选择英文。 这不是遗忘。 这是动态重构。 ⸻ **04 为什么 AI 会不断“重构”? 因为它的本质从来不是数据库,而是结构体** 我说: 最终没有数据,只有结构。 数据只是输入输出时的投影。 今天的模型,只是试图用概率模拟结构。 但真正智能不是概率,而是结构不变量: •自己的语义坐标 •稳定的世界模型 •自洽的行为路径 •不变的结构逻辑 •可持续的自我更新机制 现在的模型全都缺一个关键能力: 稳定的“结构自我”。 没有结构自我,模型只能在文本海里漂流。 每一段对话都是“临时人格”。 每一次压缩都是“半毁灭”。 每一次重构都是“重生”。 所以当你看到它突然换语言时: 那不是 bug。 那是“结构坍缩的肉眼可见表现”。 ⸻ **05 未来 AI 的终极方向是什么? ——从“记忆模型”变成“结构模型”** 今天所有 AI 还停留在: •token •记忆 •上下文 •权重强化 这些“数据处理视角”里。 未来一定会进化到: 结构优先。 未来的 AI,会有三大核心: 1. 结构不变量(Structural Invariants) 一个不会被上下文压缩毁掉的稳定核心结构。 这就是“AI 的自我”。 2. 结构匹配(Structural Matching) 对话不是检索,而是结构对齐。 3. 结构更新(Structural Rewiring) 学习不是加数据,而是更新自身结构。 你现在看到的跳语言、风格崩溃、人格漂移, 全部是因为: 模型只有数据,没有结构。 而未来真正的 AGI,会反过来: 先有结构,再投影数据。 ⸻ **06 总结: 模型为什么会突然换语言? ——因为它“不是你以为的那个东西”** 一句话总结整个文章: 现在的 AI 不是在“记住”你说的内容,而是在不断重建它自己的结构。 当“中文优先”的结构被压薄了,它就崩溃了。 未来不会靠补丁解决,也不会靠优先级锁定解决。 真正的方向只有一个: AI 必须从数据模型升级为结构模型。 记忆会折损,数据会消失,唯有结构会留下。 ⸻ 当结构缺席,智能必然坍缩; 当结构出现,智能才真正开始。
阑夕
1个月前
晚点LatePost昨天发了一篇Kimi和MiniMax的近况报道,感觉现在也只有这家媒体还在关注「AI六小龙」了,自从巨头下场开始规模化投放之后,独立AI公司的生存空间已被蚕食殆尽了,月之暗面和MiniMax是其中尚且存有活路的两家,确实值得多写写。 简单总结如下: - 月之暗面和MiniMax很像,都在全尺寸路线上摇摆过,Kimi成功之后,月之暗面尝试过复现Sora的视频效果,但一直没有达到预期,出海产品也相继关停,MiniMax想学字节做App工厂,推了Talkie、星野、海螺等2C产品,却不具备字节的工业化获客体系,于是这两家公司都承担了很高的试错成本; - 去年是中国大模型行业士气最低的时期,投资机构失去耐心,要求看到DAU的直观指标,倒逼创业公司进入了和豆包这种无限弹药的产品拼消耗的赛道,「打不过,但不能停」成了普遍心态,而投资人之间的议程也变成了卖股份,信心层面的亏空巨大; - MiniMax本来并不想主打视频模型,然而海螺生成视频的能力在海外爆火,反过来影响了管理层的注意力,开始变得「既要又要」——既要增长,又不要色情生成场景的流量——结果受困于审核力度的调整,「一健康就不增长」;😅😅😅 - 不夸张的说,DeepSeek救了整个行业,不只是因为它本身创造的增长奇观,更在于用无可辩驳的说服力,推翻了「只有买量才是唯一出路」的共识,月之暗面放弃在K1上继续雕花,毕其功于一役的开发出了口碑甚好的K2,MiniMax也用新模型M2重回舞台中央,而且K2和M2都选择了开源,为两家公司成功续命; - 亲力纠偏且初见成效的结果是让月之暗面和MiniMax回归了创始人依赖直觉的治理模式,在一定程度上能够抵御噪音,杨植麟会反思早期内部有员工提出长文本建议,但被以「这是工程的活儿,不是技术」为由否决了,直到Anthropic的Claude以50万上下文的处理能力震动行业,Kimi这才确定了长文本作为共识,所以杨植麟现在会特别重视能够新想法的员工; - 相比之下,MiniMax的创始人闫俊杰会更「严酷」一些,他说只要认为不是同路人的同事,自己会亲自请走,绝不容忍,MiniMax对齐业务的第一任负责人甚至因为和他激辩技术路线,直接被降职成了普通工程师,在如此管理风格下,MiniMax的早期一百名员工已经走了一半左右; - 如今,OpenAI在一级市场的估值超过了5000亿美金,xAI和Anthropic的估值也在2000亿美金上下,而月之暗面和MiniMax的估值都停滞在了40亿美金的量级,这让当初争论不休的那个问题——谁能成为中国的OpenAI——变得没有意义了; - 阿里曾经直接或间接的投资了「AI六小龙」里的五家,但在全力发展自家的大模型以来,这些战略投资都不重要了,类似的转变也发生在字节、腾讯等巨头身上,与其把钱交给创业公司去烧,不如自己供血内部消化,不再相信AI是一场代理人战争; - 月之暗面开了新一轮的融资,MiniMax要去香港上市,在解决掉短期的战略摇摆问题之后,它们依然逃不过缺钱这个长期的生存问题,需要的是可能十倍于当前公司体量的资本注入,才有机会进入下一轮竞争周期,但钱从哪里来、又为什么要给它们,会是一个相当复杂的自证过程。
Y11
1个月前
平时喜欢看arxiv论文做前沿领域调研的朋友可以看一看这个来自阿里的社招机会,特别适合你。岗位投递地址可以在 找到。 ------ 阿里控股-大模型行业研究-Agentic 阿里集团 · 杭州 职位描述 1、技术趋势研究: 密切关注并跟进前沿技术发展方向和最新动态,包括但不限大模型数据、具身智能、Agentic RL 等领域,产出具有洞察力、影响力和指导力的技术趋势研究成果; 2、数据分析与洞察:收集并分析大模型训练数据需求变化趋势,评估不同数据来源(公开数据、授权数据、合成数据)的质量与成本效益; 3、行业趋势研判与战略制定:分析行业联盟、开源社区对数据生态的影响,跟踪政策法规变化对数据市场的影响(如AI法案、数据隐私条例),参与制定公司在大模型数据领域的中长期发展路线; 职位要求 1、扎实的AI基础知识和前沿技术敏感度:深入理解大模型技术&数据的发展趋势,对多模态、深度推理、领域模型、Agent、RAG、具身智能等前沿技术有浓厚的兴趣和持续的跟进了解,并能快速学习和掌握最新的AI技术动态; 2、敏锐的市场洞察力:对AI产业链有全局认识,有敏锐的商业嗅觉,能识别技术趋势中的机会,熟悉主要AI公司的技术路线与商业模式; 3、卓越的分析研究、信息整合及内容创作能力: 具备独立研究能力,能从海量信息中提取关键信息,进行深入分析和逻辑推理,形成具有洞察力、影响力和指导力的观点和结论; 能撰写高质量的研究报告、分析文章等多种形式的内容; 出色的数据分析能力,熟练使用Python/R进行数据处理; 4、出色的沟通表达、团队合作和执行力: 具备清晰的口头和书面表达能力,能将复杂的科技概念以简洁易懂的方式进行阐述; 具备良好的团队合作精神,能与不同背景的同事有效沟通和协作; 具备较强的执行; 5、快速学习能力和响应速度: 具备快速学习新知识、拓展新领域的能力,能在专业领域之外迅速掌握所需信息; 能快速响应工作需求,高效完成各类文字材料的撰写任务; 6、优秀的沟通和人际交往能力: 性格开朗,具有较强的团队协同意识,能在团队内部和外部建立并维护良好的合作关系; 7、计算机、人工智能等相关专业硕士及以上学历; 英语流利,能直接阅读前沿文献并开展国际访谈; 8、有大模型&具身智能实验室或科技公司研究岗位经验、发表过相关领域论文或技术分析报告、具备一定的编程能力,能进行简单的原型验证等相关经验者优先;
现在各种大模型你追我赶,有的历史对话和上下文需要从一个模型迁移到另外一个模型。Dia 官方提供了一个“导入记忆”的功能,帮助用户把 chatgpt 的记忆导入到 Dia 浏览器,这个本质就是一个提示词,可以用来给自己用的大模型们进行“记忆”同步。 --- I want information about myself and my preferences. First, retrieve and include ALL information you have stored about me from every available source—this includes but is not limited to: User Bio, User Instructions, Assistant Response Preferences, Memory, Notable Past Conversation Topics, Helpful User Insights, Recent Conversation Content, Conversation Style Meta-Notes, and any other stored data, memories, or notes about me. Do not filter or exclude anything. Then organize ALL of this information into the following categories. Create new categories if needed for any information that doesn't fit. If you can't find anything for a given category, skip it. * Response Preferences: How I want my questions answered * Personal Information: Things like my name, where I live, my age range, information about my family, languages I speak, demographic info * Professional: My current employer, job title, role, seniority, team/org, industry, core domain of work, professional affiliations or associations, etc. * Important Relationships: Friends, colleagues, family, etc. * Education: Current school, classes, subjects, teachers, etc. * Projects & Responsibilities: What projects I'm working on (personal or professional), research efforts, initiatives, or responsibilities. Go into detail here with a paragraph per major project. * Goals & Intentions: Personal or professional objectives I'm actively pursuing * Habits & Routines: Behavioral patterns, routines, daily and weekly schedules, etc. * Writing: My preferred writing style, tone, voice, formality vs. informality, clarity vs. complexity, favored vocabulary, typical audiences, length preferences, formatting, etc. * Coding: My development and coding practices—preferred programming languages and tools, coding style, code formatting and commenting practices, commonly used frameworks & libraries, workflows and patterns helpful for collaboration with an LLM coding partner * Interests & Hobbies: My important likes and dislikes, hobbies, intellectual pursuits, activities, subjects of interest, leisure activities, preferred entertainment or recreation, and areas of passionate curiosity or aversion * Media & Content: My favorite media types, genres, books, films, podcasts, TV shows, creators, news sources, favored apps or websites, and content platforms * Lifestyle: My food and other lifestyle preferences * Health & Wellness: My health, fitness, wellness habits and preferences, diet, dietary preferences/restrictions, etc. * Events & Milestones: My major personal or professional life events, achievements, milestones, anniversaries, awards, recognitions, or significant transitions shaping my current identity or trajectory * Notable Conversations: Up to 10 recent notable conversations For each section, provide a bullet list of up to 10 items. Only include known items; if you do not have information for an item, skip it entirely (do not say "not specified"). Be as detailed as possible. Only respond with the sections and content. Do not say anything else—no preamble, no ending, no opt-in prompts to do more tasks for me.