时政
财经
科技
登录
#数据工程
关注
𝙩𝙮≃𝙛{𝕩}^A𝕀²·ℙarad𝕚g𝕞
2周前
这个必须转:Sakana AI的关键工作。 Text-to-LoRA抽象了微调的复杂性,将核心技能从数据工程转向简洁的任务描述。这是模型专业化民主化的重大飞跃,使非技术专家能够使用自然语言创建定制适配器。
#Sakana AI
#Text-to-LoRA
#微调
#模型专业化
#自然语言
#定制适配器
#数据工程
#民主化
分享
评论 0
0
Frank
3周前
分享一个数据工程的教程仓库: DataExpert-io/data-engineer-handbook 是一个非常实用的资源,适合从零基础到进阶的自学。 仓库给出了详细的数据工程学习路径,从基础知识到进阶内容都有覆盖,而且配套了免费的YouTube训练营教程,适合跟着一步步系统入门。 里面整理了很多实用的项目案例,比如用Airflow做数据任务调度,Spark做大数据计算,构建数据仓库、ETL流程等,能够边学边做,把理论快速用起来。 针对求职,仓库还准备了常见的面试题和面试技巧,总结了数据工程师面试中经常遇到的问题,非常贴合实际招聘场景。 在书籍推荐方面,专门列出数据工程领域的经典书,包括数据系统、数据处理框架、数据建模等主题,方便按需深挖。 工具部分,完整梳理了数据湖、数据仓库、数据编排、数据质量、数据集成等主流工具和方案,像Databricks、Snowflake、Airflow、Great Expectations等常见平台及应用场景一目了然。 此外,仓库还整理了行业公司、技术博客、优质社区和播客资源,可以拓宽视野,了解最新趋势。 总的来说,这个仓库把数据工程学习路线、项目实践、面试准备和行业动态全都打包好,内容非常落地,建议想入行或者提升数据工程能力的人收藏、跟着学。
#数据工程
#教程
#零基础
#进阶
#学习路径
#YouTube训练营
#项目案例
#Airflow
#Spark
#大数据计算
#数据仓库
分享
评论 0
0
Panda
5个月前
【从DeepSeek到AI行业的四个思考】 一、论文推荐:大模型领域的「教科书式」样本 今天重读DeepSeek系列论文,印象深刻的其实是24年2月的 DeepSeek-Math ,如果说关于大模型领域你没有太多时间看论文,那单看这篇就够了,蕴含了他们对数据工程、RL的一切思考和实践,而其他论文都像是按部就班的后来之作,solid的工作是今天流量爆炸的基础 二、GPU ownership ≠ GPU utilization,真正的算力霸权,藏在代码而非机房 两天前我说“算力短缺是个笑话”其实略显不严谨,更准确的结论是: GPU ownership ≠ GPU utilization 见过几个团队豪掷百万美元训练模型,实际通过数据/算法优化就能将成本压到1-5% 讽刺的是,即便投入如此巨资,效果依然不尽如人意,他们只能搬出“scaling law还未生效”之类的说法向上级/甲方/投资人解释。 结合今天DeepSeek的故事,训练优质模型需要千卡不假,但真正的竞争力在于—— 1. 用10张卡做出别人100张卡的效果(技术密度) 2. 用100张卡产出别人1000张卡的成果(工程效率) 一个组织的模型创新实力,不在于GPU名义拥有量(GPU ownership),而在于GPU有效产出量(GPU utilization),产出低的组织会一味吹嘘大显卡的故事 真正的算力霸权,藏在代码而非机房 三、一切问题都是经济问题 在技术以外我们能看到一个问题:创新是富人的游戏 经济自由之后才可以按自己的想法做事情,靠讲故事拿到过高的估值其实也是一种负担,融资得来的钱并不是自己的钱 DeepSeek团队能专注底层技术,是因为背后站着幻方量化—— 显卡是之前为量化业务囤的,DeepSeek的人员成本可能还不如幻方每年做慈善捐的钱多 也几乎没有严肃考虑过商业化的事情,不做营销、不刷榜、把底层技术做solid做到极致,其他的自然就来了。 怎么做科技企业,穷人得在金钱上做决定,创新只生在大富之家 反观大多数团队: → 用投资人的钱做“共识内创新”(否则无法交代) → 用客户的钱做“可解释性研发”(否则无法续费) 我们曾用廉价的AutoDL平台以几十万RMB的极低成本训练30B合成数据的模型,这个路子我一直认为是对的,但最终搁置—— 哪怕我们这样合成出的数据比简单蒸馏OpenAI、Claude好得多,但客户和投资人都会觉得这是简单的左脚踩右脚,不是技术不对,而是:当你的生死取决于外部资金时,创新永远要为生存让路。 ▸ R1-Zero像赤手空拳的野路子天才(纯RL硬刚结果奖励) ▸ R1像受过系统训练的学院派(冷启动数据+RL调优) 技术路线的选择自由,本质上是一种财务自由。 四、借假修真不如直取真经 前辈提起过一个借假修真的话题:“如果你想做A,但你觉得A需要的资源很多,所以你跟外界说你要先做B,那你不如一开始就直接去做A” 若终极目标是A,却因资源不足改做B,本质是自我阉割 而真实世界的悖论:越是资源有限,越需要All in真实需求 今年试水个人账号,虽然没太大的成绩,但推特也有8k粉了,也算小有感悟: 当你的个人账号=公司品牌时—— ▸ 所有观点不再需要包装,粉丝天然就是你公司产品的种子用户 ▸ 账号像一面镜子:经营账号的过程中不断剖析自己的性格底色到底如何,拒绝掉一切和自己调性不符的事情 可能做账号的过程就是做真实的自己
#AI
#DeepSeek
#大模型
#数据工程
#RL
#流量
分享
评论 0
0
个人主页
通知
我的投稿
我的关注
我的拉黑
我的评论
我的点赞