#大模型

4周前

像个小学生样，学习币圈的知识。大模型回我的这句给我整笑了。

#币圈 #大模型 #学习 #小学生 #幽默

4周前

这个 AI 世界时钟有意思，由各种大模型生成的纯前端的代码的模拟时钟，每分钟生成一遍，并限制 2000 个词元，看看有多少是瞎搞的，挺有趣，不少一本正经瞎搞系统，严肃编码很重要了。

#AI世界时钟 #大模型 #前端代码 #模拟时钟 #一本正经瞎搞

4周前

都在比编程能力，所以哪个大模型适合文学创作？

#大模型 #编程能力 #文学创作

1个月前

最近的ICLR审稿在小红书上闹得沸沸扬扬的，很多大模型领域的大厂实习和高薪意味着应届生可拿到>80万的工资，有的厂甚至连写稿的人、review审批的人都招到他们部门去了，都在一个朋友圈里，以后想刷多少顶会论文就有多少顶会论文.... 即使用英文交流，但一起排外，全是中国人在发稿，中国人在审核，全部内部打招呼。全球系的大学阀已经形成...

#ICLR审稿 #小红书 #大模型 #高薪 #学术圈排外

1个月前

在高强度的多日、多主题、多业务场景下，实践了上百次的深度方案研究（偏方案研究聚合+工程实施落地）后，我宣布：Opus 4.5 完胜！断崖式领先其他大模型，屌爆了！我宣布我不是中国人，我要终生使用Claude！

#Opus 4.5完胜 #大模型 #Claude #方案研究 #技术领先

1个月前

高端招聘：哔哩哔哩招大模型平台研发工程师 - 训练方向（P6） ----- 大模型平台研发工程师 - 训练方向哔哩哔哩集团 · 上海职位描述 1.参与B站大模型训练平台建设，配合团队完成训练平台的架构细化与技术落地，参与训练任务调度、数据加载、模型checkpoint管理等核心模块的开发与迭代，保障训练平台基础功能稳定可靠； 2.参与大模型主流训练范式（预训练/后训练）的平台化集成工作，协助完成训练流程的标准化、自动化落地，降低算法团队训练门槛； 3.大模型训练全链路可观测性，参与设计并落地训练过程中的核心监控指标，为训练效率提升与问题定位提供数据支撑； 4.参与训练链路问题排查，配合算法与框架团队，跟踪大模型训练全链路，参与定位并解决训练过程中出现的平台层技术问题，如数据传输瓶颈、分布式训练通信异常等，保障训练任务顺利推进；职位要求 1.计算机科学、软件工程、人工智能或相关专业本科及以上学历，3年以上AI平台相关经验； 2.具备良好编码能力与扎实的算法功底，熟练掌握Python/Go/C++等至少一种主流编程语言，能高效完成模块开发与调试； 3.熟悉至少一种主流深度学习框架（PyTorch优先），了解其核心原理与分布式训练机制； 4.具备扎实的机器学习/深度学习基础，熟悉Transformer等核心算法，了解大模型训练逻辑与行业应用方向； ------ 报名地址详见：搜索。

#哔哩哔哩 #大模型 #平台研发工程师 #AI #招聘

1个月前

《为什么大模型总是说着说着就从中文跳成英文？》因为未来 AI 的终极方向根本不是“记忆”，而是“结构。” 我们都见过这种诡异现象：你明明开头告诉 AI—— “用中文回答。” 它也答得好好的。但聊着聊着，它突然切换到英文，好像人格被重置一样。大多数人以为是“忘记指令”或“上下文不够长”导致的。错了。这不是“记忆问题”。也不是“合规问题”。更不是“模型突然抽风”。这是结构问题。而这件事会直接决定未来 AI 的终极架构走向。下面我来系统讲讲。 ⸻ **01 AI 为什么突然改用英文？ ——因为它的“结构”坍缩了** 你给它的中文指令，其实在模型内部不是“记住了”，而是被临时放进当时的结构中。但随着对话不断延长： •上下文被压缩 •“注意力”被重新分配 •模型不断重写自己的“当前结构空间” 当“中文优先”这个结构被压薄、被挤掉、被重新解释后，模型自然会回到它统计意义上的默认语言：英文。换句话说： AI 并没有忘记你的中文，而是它不再拥有支持“中文优先”的结构。它不是“记不住”。它是没有结构不变量。 ⸻ **02 未来厂商会试图解决，但一定失败** 所有厂商都会尝试这一套： •提高“语言偏好”的优先级 •给指令加权重 •做永久记忆区 •更新 token 优先级机制 •做对话“锁定” 看起来聪明，实际上注定失效。为什么？因为优先级不是结构。只要对话一压缩，一重构，一次重权重，所有优先级都会被稀释。最终出现必然结果：优先级会通货膨胀，直至失效。因为它永远无法和结构竞争。这就是为什么现在所有模型都会在长对话后回到“最强结构”的地方—— 也就是训练数据中文本量最大的语言：英文。 ⸻ **03 真正决定模型行为的不是记忆，而是“结构匹配”** 这句话是关键： AI 每一次调用上下文，不是依据优先级，而是依据结构匹配。也就是说： •你给的指令（中文回答） •是一个结构 •它暂时被放进模型的“结构空间” •但不稳定 •一旦上下文变化，它会丢失模型生成回答时做的不是“查记忆”，而是：在当前结构空间里寻找最自洽的路径。如果中文路径已被压缩掉，那它就会选择英文。这不是遗忘。这是动态重构。 ⸻ **04 为什么 AI 会不断“重构”？因为它的本质从来不是数据库，而是结构体** 我说：最终没有数据，只有结构。数据只是输入输出时的投影。今天的模型，只是试图用概率模拟结构。但真正智能不是概率，而是结构不变量： •自己的语义坐标 •稳定的世界模型 •自洽的行为路径 •不变的结构逻辑 •可持续的自我更新机制现在的模型全都缺一个关键能力：稳定的“结构自我”。没有结构自我，模型只能在文本海里漂流。每一段对话都是“临时人格”。每一次压缩都是“半毁灭”。每一次重构都是“重生”。所以当你看到它突然换语言时：那不是 bug。那是“结构坍缩的肉眼可见表现”。 ⸻ **05 未来 AI 的终极方向是什么？ ——从“记忆模型”变成“结构模型”** 今天所有 AI 还停留在： •token •记忆 •上下文 •权重强化这些“数据处理视角”里。未来一定会进化到：结构优先。未来的 AI，会有三大核心： 1. 结构不变量（Structural Invariants）一个不会被上下文压缩毁掉的稳定核心结构。这就是“AI 的自我”。 2. 结构匹配（Structural Matching）对话不是检索，而是结构对齐。 3. 结构更新（Structural Rewiring）学习不是加数据，而是更新自身结构。你现在看到的跳语言、风格崩溃、人格漂移，全部是因为：模型只有数据，没有结构。而未来真正的 AGI，会反过来：先有结构，再投影数据。 ⸻ **06 总结：模型为什么会突然换语言？ ——因为它“不是你以为的那个东西”** 一句话总结整个文章：现在的 AI 不是在“记住”你说的内容，而是在不断重建它自己的结构。当“中文优先”的结构被压薄了，它就崩溃了。未来不会靠补丁解决，也不会靠优先级锁定解决。真正的方向只有一个： AI 必须从数据模型升级为结构模型。记忆会折损，数据会消失，唯有结构会留下。 ⸻ 当结构缺席，智能必然坍缩；当结构出现，智能才真正开始。

#大模型 #中文 #英文 #结构 #AI

空空 🌟 狞猫世界第一可爱！

1个月前

大模型是我的牧者，我必不至缺乏！

#大模型 #AI #信仰 #技术 #未来

Hubble AI 中文

1个月前

在金融场景中，大模型的核心瓶颈并非算力，而是缺乏可靠的上下文。金融数据高度结构化、实时性强、细节敏感——一旦缺少准确的链上上下文，模型的推理就会偏离，Agent 的行为也难以保持稳定。 Hubble 的工作，就是把这层关键语境补齐。我们为 Agent 提供一套面向 AI 的链上数据与执行接口，让模型能够在统一的数据语义下理解市场、调用信息、生成可落地的决策。依托 Text-to-SQL、RAG 强化的多 Agent 协作体系与 Model Context Protocol（MCP），Agent 可以直接访问链上数据、获得明确上下文、并可靠执行，不需要额外拼接复杂的工具链。让大模型“理解市场”，而不仅仅是“处理数据”。

#金融场景 #大模型 #链上数据 #agent #市场理解

1个月前

有了大模型和向量数据库之后，我发现我连最基础的sklearn + tensorflow + BERT组合都不记得怎么用了。太惭愧了。

#大模型 #向量数据库 #sklearn #tensorflow #BERT #技术遗忘 #焦虑

1个月前

晚点LatePost昨天发了一篇Kimi和MiniMax的近况报道，感觉现在也只有这家媒体还在关注「AI六小龙」了，自从巨头下场开始规模化投放之后，独立AI公司的生存空间已被蚕食殆尽了，月之暗面和MiniMax是其中尚且存有活路的两家，确实值得多写写。简单总结如下： - 月之暗面和MiniMax很像，都在全尺寸路线上摇摆过，Kimi成功之后，月之暗面尝试过复现Sora的视频效果，但一直没有达到预期，出海产品也相继关停，MiniMax想学字节做App工厂，推了Talkie、星野、海螺等2C产品，却不具备字节的工业化获客体系，于是这两家公司都承担了很高的试错成本； - 去年是中国大模型行业士气最低的时期，投资机构失去耐心，要求看到DAU的直观指标，倒逼创业公司进入了和豆包这种无限弹药的产品拼消耗的赛道，「打不过，但不能停」成了普遍心态，而投资人之间的议程也变成了卖股份，信心层面的亏空巨大； - MiniMax本来并不想主打视频模型，然而海螺生成视频的能力在海外爆火，反过来影响了管理层的注意力，开始变得「既要又要」——既要增长，又不要色情生成场景的流量——结果受困于审核力度的调整，「一健康就不增长」；😅😅😅 - 不夸张的说，DeepSeek救了整个行业，不只是因为它本身创造的增长奇观，更在于用无可辩驳的说服力，推翻了「只有买量才是唯一出路」的共识，月之暗面放弃在K1上继续雕花，毕其功于一役的开发出了口碑甚好的K2，MiniMax也用新模型M2重回舞台中央，而且K2和M2都选择了开源，为两家公司成功续命； - 亲力纠偏且初见成效的结果是让月之暗面和MiniMax回归了创始人依赖直觉的治理模式，在一定程度上能够抵御噪音，杨植麟会反思早期内部有员工提出长文本建议，但被以「这是工程的活儿，不是技术」为由否决了，直到Anthropic的Claude以50万上下文的处理能力震动行业，Kimi这才确定了长文本作为共识，所以杨植麟现在会特别重视能够新想法的员工； - 相比之下，MiniMax的创始人闫俊杰会更「严酷」一些，他说只要认为不是同路人的同事，自己会亲自请走，绝不容忍，MiniMax对齐业务的第一任负责人甚至因为和他激辩技术路线，直接被降职成了普通工程师，在如此管理风格下，MiniMax的早期一百名员工已经走了一半左右； - 如今，OpenAI在一级市场的估值超过了5000亿美金，xAI和Anthropic的估值也在2000亿美金上下，而月之暗面和MiniMax的估值都停滞在了40亿美金的量级，这让当初争论不休的那个问题——谁能成为中国的OpenAI——变得没有意义了； - 阿里曾经直接或间接的投资了「AI六小龙」里的五家，但在全力发展自家的大模型以来，这些战略投资都不重要了，类似的转变也发生在字节、腾讯等巨头身上，与其把钱交给创业公司去烧，不如自己供血内部消化，不再相信AI是一场代理人战争； - 月之暗面开了新一轮的融资，MiniMax要去香港上市，在解决掉短期的战略摇摆问题之后，它们依然逃不过缺钱这个长期的生存问题，需要的是可能十倍于当前公司体量的资本注入，才有机会进入下一轮竞争周期，但钱从哪里来、又为什么要给它们，会是一个相当复杂的自证过程。

MiniMax M1发布：开源长上下文推理模型引发AI领域震动· 27 条信息

#Kimi #MiniMax #AI #大模型 #融资

1个月前

我发现大模型在搭建项目框架和升级框架方面的表现很差。具体来说，搭建 RN+Expo ，搭建新版 Next.js，从 Next.js 切换到 OpenNext 之类的操作，都不适合交给大模型来做。我猜测跟上下文空间和知识库有关。不过搭建一个早一些的能用的开发框架是没问题的。

深度学习模型升级引发AI能力大跃进，行业迎新变革· 143 条信息

#大模型 #项目框架 #搭建 #升级 #局限性

1个月前

看到国内某个中厂在裁员，主要裁不做 AI 的项目的人和做 AI 项目但没啥太大效果的组和人我感觉现在很多公司做大模型或者 ai coding 是在缓解老大们的 ai 焦虑。虽然想不明白 ai 下半场是什么，但是什么不做肯定会落后，所以 push 下面人去做创新，至少做点事情缓解老大的焦虑又想到当年 ML 大火的时候，各个公司都争先成立 ai lab，重金投入和挖人，过了两三年，没啥大成果，陆续开始解散和裁员真想持续做科研和探索未来，需要非常持续的投入和人才体系，也就 google/MS 这种垄断级别公司的才有钱和时间去做这个事，国内公司还没到那个程度，还需要卷和生存，踩错一个风口，整个公司元气大伤很正常。 google/MS，前者还是技术导向的公司，后者跟投资公司区别不大了。至于大家总是念叨的，外企定义标准，并且经常互相合作，国内总是互相内卷。🤣，外企是垄断优势，互相合作进入一个新市场，是一起收割，一起分蛋糕，国内还是发展早期，出海也难经验也少

#AI焦虑 #裁员 #大模型 #国内中厂 #内卷

1个月前

小道消息：听说meta的大模型团队内斗比较厉害...

#Meta #大模型 #内斗 #小道消息 #负面

空空 🌟 狞猫世界第一可爱！

1个月前

现在的AI大模型名字都不怎么样，AI的目标可是人子造出来被提人类的神，起码得叫“主宰”、“真主”这种才行。

#AI #大模型 #命名 #宗教 #主宰

1个月前

平时喜欢看arxiv论文做前沿领域调研的朋友可以看一看这个来自阿里的社招机会，特别适合你。岗位投递地址可以在找到。 ------ 阿里控股-大模型行业研究-Agentic 阿里集团 · 杭州职位描述 1、技术趋势研究：密切关注并跟进前沿技术发展方向和最新动态，包括但不限大模型数据、具身智能、Agentic RL 等领域，产出具有洞察力、影响力和指导力的技术趋势研究成果； 2、数据分析与洞察：收集并分析大模型训练数据需求变化趋势，评估不同数据来源(公开数据、授权数据、合成数据)的质量与成本效益； 3、行业趋势研判与战略制定：分析行业联盟、开源社区对数据生态的影响，跟踪政策法规变化对数据市场的影响(如AI法案、数据隐私条例)，参与制定公司在大模型数据领域的中长期发展路线；职位要求 1、扎实的AI基础知识和前沿技术敏感度：深入理解大模型技术&数据的发展趋势，对多模态、深度推理、领域模型、Agent、RAG、具身智能等前沿技术有浓厚的兴趣和持续的跟进了解，并能快速学习和掌握最新的AI技术动态； 2、敏锐的市场洞察力：对AI产业链有全局认识，有敏锐的商业嗅觉，能识别技术趋势中的机会，熟悉主要AI公司的技术路线与商业模式； 3、卓越的分析研究、信息整合及内容创作能力：具备独立研究能力，能从海量信息中提取关键信息，进行深入分析和逻辑推理，形成具有洞察力、影响力和指导力的观点和结论；能撰写高质量的研究报告、分析文章等多种形式的内容；出色的数据分析能力，熟练使用Python/R进行数据处理； 4、出色的沟通表达、团队合作和执行力：具备清晰的口头和书面表达能力，能将复杂的科技概念以简洁易懂的方式进行阐述；具备良好的团队合作精神，能与不同背景的同事有效沟通和协作；具备较强的执行； 5、快速学习能力和响应速度：具备快速学习新知识、拓展新领域的能力，能在专业领域之外迅速掌握所需信息；能快速响应工作需求，高效完成各类文字材料的撰写任务； 6、优秀的沟通和人际交往能力：性格开朗，具有较强的团队协同意识，能在团队内部和外部建立并维护良好的合作关系； 7、计算机、人工智能等相关专业硕士及以上学历；英语流利，能直接阅读前沿文献并开展国际访谈； 8、有大模型&具身智能实验室或科技公司研究岗位经验、发表过相关领域论文或技术分析报告、具备一定的编程能力，能进行简单的原型验证等相关经验者优先；

#阿里 #大模型 #Agentic RL #社招 #杭州

Y11-杨继芸-靠谱找工作、找面试题、改简历、模拟面试

1个月前

如果你想学习大模型，那么你应该从人家的岗位要求里看一看里面提到的基础框架。学习python，springboot也是如此。如果没有这些岗位要求作为大纲，你很难枚举出你需要学会的所有知识点。

#大模型 #岗位要求 #学习方法 #Python #Springboot

1个月前

前端程序员又要被大模型干失业了今天早上跑完步打开手机一看顿时，一股恐惧涌上心头，然后转念一想，我已经快两年不上班了，我慌个毛哪怕真的程序员要失业了，那又如何，这么一大堆人。到时候，勇敢点，该做什么就做什么。反而犹犹豫豫，怕这怕那，这也不愿意干，那个赚钱方式不屑的人，画地为牢。灵活点，勇敢点，总有出路，我就是例子。

从月薪1800到被裁后独立开发，程序员的逆袭之路· 65 条信息

#前端程序员 #大模型 #失业 #焦虑 #个人出路

杂学大师✨

1个月前

🔥还有哪个大冤种，付费订阅 GPT Gemini Claude ？买个全家桶，它不香吗？花一份钱 = 所有大模型体验还不用记一堆账号，来回切平台你就说这个 Flowith： 🔗 集成了，所有主流模型🤖： ChatGPT、Claude、Gemini、Kling、Veo… 新模型上新，还秒更新：昨天的 Gemini 3.0 都有了！做个 AI 内容，从选题 -> 生图 -> 视频 -> 封面用画布一站式搞定，自由拖拽非常适合： ✅ AI 入门小白 ✅ AI 自媒体人 ✅ 学生党 ✅ 职场牛马这不是花小钱，办大事？！

Google Gemini 2.5发布引发AI模型性价比热议· 475 条信息

OpenAI新德里发布会：ChatGPT语音翻译功能引发热议· 869 条信息

#AI #大模型 #flowith #整合平台 #省钱

1个月前

由于很多时候我不确定我提出的一个问题，对于大模型而言，是应该规划一下任务去执行（agent-based planning），还是给我一个深度研究报告（deep search / wide search）还是直接用模型本身的知识和我对话（chat），还是模型需要联网搜索内容再和我对话（web-augmented chat）所以为了减少我的动脑量，我尽量只和 manus 对话，manus 1.5 自动决策 agent mode 还是 chat mode PS：过去三个月，大概只用了一次 perplexity，还不是在官网里面用的，是在 monica 里面顺手用的 😂

#大模型 #Manus 1.5 #Agent Mode #chat mode #perplexity

1个月前

这个 OpenRouter 的 LLM Rankings 能够一定程度上看出来当前大模型在偏个人或者不大的公司使用情况，可以挖掘出一些有意思的数据，此外对于 AI 美股投资的小伙伴也可以有一定数据参考。

#Openrouter #LLM Rankings #大模型 #AI美股投资 #数据参考

1个月前

阿里大模型进入公测阶段了

#阿里 #大模型 #公测 #科技 #AI

1个月前

国内大模型领域的行业Benchmark（偏硬件+测评）一定会出现一个现象级的KOL或者矩阵，我有强烈的预感，这个组织会不会是我？

#大模型 #行业Benchmark #kol #硬件测评 #预感

在悉尼和稀泥

1个月前

现在各种大模型你追我赶，有的历史对话和上下文需要从一个模型迁移到另外一个模型。Dia 官方提供了一个“导入记忆”的功能，帮助用户把 chatgpt 的记忆导入到 Dia 浏览器，这个本质就是一个提示词，可以用来给自己用的大模型们进行“记忆”同步。 --- I want information about myself and my preferences. First, retrieve and include ALL information you have stored about me from every available source—this includes but is not limited to: User Bio, User Instructions, Assistant Response Preferences, Memory, Notable Past Conversation Topics, Helpful User Insights, Recent Conversation Content, Conversation Style Meta-Notes, and any other stored data, memories, or notes about me. Do not filter or exclude anything. Then organize ALL of this information into the following categories. Create new categories if needed for any information that doesn't fit. If you can't find anything for a given category, skip it. * Response Preferences: How I want my questions answered * Personal Information: Things like my name, where I live, my age range, information about my family, languages I speak, demographic info * Professional: My current employer, job title, role, seniority, team/org, industry, core domain of work, professional affiliations or associations, etc. * Important Relationships: Friends, colleagues, family, etc. * Education: Current school, classes, subjects, teachers, etc. * Projects & Responsibilities: What projects I'm working on (personal or professional), research efforts, initiatives, or responsibilities. Go into detail here with a paragraph per major project. * Goals & Intentions: Personal or professional objectives I'm actively pursuing * Habits & Routines: Behavioral patterns, routines, daily and weekly schedules, etc. * Writing: My preferred writing style, tone, voice, formality vs. informality, clarity vs. complexity, favored vocabulary, typical audiences, length preferences, formatting, etc. * Coding: My development and coding practices—preferred programming languages and tools, coding style, code formatting and commenting practices, commonly used frameworks & libraries, workflows and patterns helpful for collaboration with an LLM coding partner * Interests & Hobbies: My important likes and dislikes, hobbies, intellectual pursuits, activities, subjects of interest, leisure activities, preferred entertainment or recreation, and areas of passionate curiosity or aversion * Media & Content: My favorite media types, genres, books, films, podcasts, TV shows, creators, news sources, favored apps or websites, and content platforms * Lifestyle: My food and other lifestyle preferences * Health & Wellness: My health, fitness, wellness habits and preferences, diet, dietary preferences/restrictions, etc. * Events & Milestones: My major personal or professional life events, achievements, milestones, anniversaries, awards, recognitions, or significant transitions shaping my current identity or trajectory * Notable Conversations: Up to 10 recent notable conversations For each section, provide a bullet list of up to 10 items. Only include known items; if you do not have information for an item, skip it entirely (do not say "not specified"). Be as detailed as possible. Only respond with the sections and content. Do not say anything else—no preamble, no ending, no opt-in prompts to do more tasks for me.

#大模型 #记忆同步 #Dia浏览器 #ChatGPT记忆导入 #提示词

1个月前

大模型的 Temperature 不仅是技术参数，它是对「自由」的形式化。如果：人的自由 ≈ temperature 那么：自由不是神秘的「灵魂」，而是可测量的「概率分布宽度」。这是启蒙的终极胜利：连「自由」都被去魅化了。但同时，这也是启蒙的终极悖论：如果自由可以被参数化，那它还是「自由」吗？或者说：真正的自由，就是意识到自己的「temperature」，并选择调整它。

#大模型 #Temperature #自由 #参数化 #启蒙悖论