#数据处理

2周前

你知道Scale AI么？ Scale AI 是一家美国人工智能基础设施公司，主要做一件事：为AI模型提供训练数据和数据处理平台。很多人以为AI公司主要做模型，比如 OpenAI、Anthropic、Google DeepMind。但在AI产业链里，还有一个关键环节：数据。 AI模型训练离不开三样东西：算力算法数据 Scale AI 就是专门解决第三件事的公司。 ⸻ 一、Scale AI 在做什么简单说，它是 AI训练数据的“工厂+平台”。例如：自动驾驶公司需要训练模型识别行人红绿灯车道线交通标志这些原始视频数据必须有人或工具去标注。 Scale AI 提供的就是：数据标注数据清洗数据管理训练数据平台客户包括： OpenAI Meta Microsoft Uber Waymo 美国国防部因此它常被称为： AI产业链里的“隐形基础设施”。 ⸻ 二、为什么 Scale AI 崛起主要有四个原因。 1 AI爆发后，数据需求指数级增长 GPT、自动驾驶、机器人、军事AI都需要大量高质量数据。问题在于： AI公司会写模型却不擅长处理海量数据。 Scale AI 把这一环标准化，变成 SaaS + 服务。 ⸻ 2 建立了全球数据劳动力网络 Scale AI 在全球建立了一支巨大的“数据劳动力”。几十万标注人员遍布：菲律宾印度非洲拉美他们负责：图像标注视频标注文本标注 RLHF训练这让 Scale AI 成为 AI训练的后勤系统。 ⸻ 3 提供自动化数据平台 Scale AI 并不只是人工标注。它还开发了：自动标注工具数据质量评估系统训练数据管理平台很多AI公司直接在 Scale 的平台上完成数据流程。 ⸻ 4 抓住了政府AI军备需求近年来一个关键增长来自：美国国防部。 Scale AI 为军方提供：无人机视觉训练数据情报分析模型数据战场AI系统训练这让它成为： AI+国防的重要供应商。 ⸻ 三、为什么 Scale AI 估值暴涨公司成立：2016 创始人：Alexandr Wang（19岁创业）目前估值曾达到： 70亿到130亿美元级别原因是它卡在一个非常关键的位置： AI产业链结构：算力层 NVIDIA 模型层 OpenAI Anthropic Google 数据层 Scale AI 这三层缺一不可。 ⸻ 四、为什么很多中国人进不去有几个现实原因。 1 安全审查 Scale AI 大量客户来自：美国军方政府机构因此很多岗位需要：美国身份安全许可非美国身份很难进入核心团队。 ⸻ 2 地缘政治 AI已经变成战略技术。美国政府对： AI 芯片数据都有严格限制。中国背景的候选人通常会被更严格审查。 ⸻ 3 公司文化和网络 Scale AI 很多员工来自： Stanford MIT Berkeley 创始团队和投资人几乎都在硅谷核心圈。招聘很多来自：内部推荐硅谷社交网络这本身就有门槛。 ⸻ 4 数据安全问题 AI训练数据里可能包含：军事医疗地理安全信息因此公司对员工背景非常敏感。 ⸻ 五、Scale AI 的真正价值很多人以为它只是“标注公司”。其实它正在做更大的事情： AI数据操作系统（Data OS）。未来AI开发流程可能是：数据采集数据管理数据训练模型评估都在一个平台上完成。 Scale AI 将会是： AI时代的数据基础设施。

#ScaleAI #人工智能 #AI产业链 #数据处理 #OpenAI #Anthropic #GoogleDeepMind

3周前

让 claude code 处理了大量数据后发现，最有利于快速处理的是在表格有多个 sheet 的情况下，尽量提供多个 csv 文件，而不是一个大的 xlsx 文件 …… 一个小技巧省下无数时间

#数据处理 #Claude #CSV #XLSX #小技巧

4个月前

咨询个问题，国内的 glm，k2 模型，走 api 的，有啥更便宜的路子么？比官方价能便宜多少？有一批数据需要处理，粗算一下估计要好几千块，不知道有没可能有办法省点……

#GLM #K2模型 #API #价格 #数据处理

 快乐永远 

5个月前

很多习惯C/Java/C# 等主流命令式语言的程序员很难理解函数式语言（Haskell，Clojure，F#）等，“不使用变量，不使用循环” 的理念。是否理解为什么不用变量不用循环还是其次，其实主要心理障碍是， “不用变量和循环，怎么能写代码？” 因为他们生活在充满变量充满循环的世界里。其实，靠精心设计的函子，是很容易清晰地处理大部份场景的，可能很多程序员一直没意识到，他们其实已经掌握了一门不用变量不用循环的语言： SQL：依赖 select （相当于函数式的 map） where （相当于函数式的filter） order by （相当于函数式的sorted） …. 这组简单算子，在不需要循环不需要变量的情况下，简单而干净地解决了很多问题，比如看看 select sum(a/b) from t where c=0 这种简单清晰的表达，用命令式： var result = 0； for(var i=0; i<t.length;i++){ if (t[i].c == 0){ result = result + t[i].a / t[i].b ; } } return result; 虽然代码不难写，但是核心逻辑（挑选c是0的，把它们的 a/b 累加）被循环结构的噪音所干扰，可读性远低于那句SQL 对应的函数式语言代码： F# 等 t |> List.filter (fun i -> i.c = 0) |> (fun i -> i.a / i.b) |> List.reduce (+) 虽然就这个简单例子，代码量并不比前面少，但是数据流程非常清晰： filter 出c是0的，然后分别计算 a/b，最后 + 起来。简洁版的（clojure等） (reduce + (map #(/ (a %) (b %)) (filter #(= 0 (c %)) t)) 虽然简洁，但可读性欠佳。 SQL 靠极少的几个原语就可以实现各种复杂的数据操作，那么手段比SQL 多十倍以上的函数式语言，当然可以在不需要显式借助变量和循环的情况下完成几乎所有操作。为什么说几乎？因为确实存在极少数情况下，很难组合出来，解决方案是： SQL：游标（其实就是指针+循环） F#：虽然不推荐，还是可以变量和循环的 Clojure：递归 Haskell：硬杠，我就不变量，麻烦就麻烦，终归可以曲线解决

#函数式编程 #SQL #无变量无循环 #编程范式 #数据处理

5个月前

很多事情，其实一个google spreadsheet就可以搞定

#效率工具 #google spreadsheet #数据处理 #简单易用 #实用性

6个月前

这个工具可以用来抓取数据扔给AI，对接和加工利用。

谷歌Deep Research：AI操作系统雏形？· 145 条信息

#数据抓取 #AI #数据处理 #工具 #中性

7个月前

[开源推荐] N8N Workflow: 收集了 2053 个 n8n 工作流的开源项目，堪称自动化爱好者的宝藏库！把从 n8n 官网、社区论坛、GitHub 以及其他公开来源收集的工作流整合在一起，提供了丰富的灵感、学习资源和可直接复用的自动化方案。核心亮点 1. 海量工作流，覆盖广泛项目收录了 2053 个工作流，涉及 365 种不同的服务和 API，比如 Telegram、Slack、Google Sheets、OpenAI、Airtable 等。这些工作流涵盖了从简单的数据同步到复杂的多触发器企业级自动化，适合各种场景，包括： · 通信：如自动发送消息到 Slack 或 WhatsApp · 数据处理：如 Google Sheets 数据整理或数据库操作 · AI/ML：如利用 OpenAI 进行内容生成 · 电商/社交媒体：如 Shopify 订单处理或 X 自动发帖 2. 高效的文档与搜索系统这个项目不仅仅是堆积了一堆 JSON 文件，它还开发了一个高性能文档系统，让用户可以快速浏览、搜索和分析工作流： · 超快搜索：基于 SQLite FTS5 的全文搜索，响应时间不到 100 毫秒 · 智能分类：工作流按触发类型（手动、Webhook、定时等）和复杂度（低、中、高）自动分类，还支持按服务类型（如通信、AI、数据库）过滤 · 可视化支持：可以通过 Mermaid 图表生成工作流的可视化结构 · 响应式设计：界面适配手机和桌面，支持深色/浅色主题，体验非常友好 3. 智能命名与组织每个工作流的 JSON 文件名都被智能转换为易读的标题。如 2051_Telegram_Webhook_Automation_Webhook.json 会变成 Telegram Webhook Automation，既直观又方便搜索。工作流还被自动归类到 12 个服务类别（如通信、云存储、CRM 等），让你轻松找到适合自己需求的方案。 4. 统计与洞察项目提供了详细的统计数据，比如： · 总计 29,445 个节点，平均每个工作流 14.3 个节点 · 触发类型分布：40.5% 是复杂多触发器工作流，25.3% 是 Webhook 触发，23.2% 是手动触发，11% 是定时触发 · 复杂度分析：35% 简单（≤5 节点），45% 中等（6-15 节点），20% 复杂（16+ 节点）为什么重要？这个项目之所以重要，是因为它极大地降低了自动化开发的门槛： · 节省时间：无需从零开始设计复杂的工作流，直接复用现成的方案 · 学习资源：通过研究这些工作流，你可以快速掌握 n8n 的用法和最佳实践 · 社区驱动：开源的本质让它成为一个不断扩展的资源库，适合个人开发者、自由职业者以及企业用户 · 商业潜力：作者允许商业使用，你可以基于这些工作流为客户开发解决方案，甚至创建附加价值（如教程或模板库）不足与注意事项 · 安全性：工作流可能包含过时的节点或需要特定 n8n 版本支持，使用前需要仔细检查 · 技术门槛：虽然文档系统很友好，但运行服务器和导入工作流需要一定的技术基础（比如安装 Python 和依赖） · 无官方发布版本：目前仓库没有正式的 Release，可能需要用户自己处理更新和兼容性问题

#N8N Workflow #自动化 #开源项目 #工作流 #数据处理

Jesse Lau 遁一子

9个月前

gemini教我"永远不要相信AI可以写出完美的XML"

#AI #XML #编程 #技术 #数据处理

9个月前

我在今年的开源之夏（OSPP 2025）里带了一个项目，关于 GitHub 数据索引/处理/标记的，欢迎对开源/数据处理/Rust 感兴趣的大学生报名（6.16 日截止） 🫡

#开源之夏 #OSPP2025 #GitHub #数据索引 #数据处理 #数据标记 #Rust #大学生

9个月前

另外有个最大的转变：我现在特喜欢用Cursor调各类API、串流程最终实现需求，比如之前我会用Claude等联网搜索拿各类股票数据，是因为我不愿意一个个整理数据也没能力拉数据，现在我首选Cursor拉最准确的数据，然后数据再结合大模型加工、处理。 Cursor对我最大的作用就是能让我玩起来各类API、串流程

#Cursor #API #Claude #股票数据 #数据处理 #大模型

1年前

这是在反串吗？ Perplexity 为 R1 抹去言论审核，补充一些全球公认的事实信息，叫“在开源社区拉屎，对中国有敌意”？中国大语言模型的训练数据集处理流程有几十万个关键词、人工黑名单、工信部备案30年您是知道的吧换言之，为什么要专门去除对中国不利的消息呢？ 😳😳😳

#信息审查 #中国 #人工审核 #人工智能 #语言模型 #数据处理 #全球信息 #开源社区 #言论自由 #中国政策

1年前

DailyDoseofDS 这个图把传统 RAG 和 Agentic RAG 之间的差异分的比较清楚。传统 RAG 就是先把文档向量化保存到向量数据库，然后在用户查询时，对用户的问题也做向量化，从向量数据库中找到相关的文档，再把问题和找出来的结果交给 LLM 去总结生成。这种方式的优点就是简单，由于不需要太多次和 LLM 之间的交互，成本也相对低，但缺点是经常会因为做相似检索时，找不到合适的结果，而导致生成结果不理想。 Agentic RAG 则是在过程中引入 AI 智能体： - 先对用户的查询内容用智能体进行重写，比如修正拼写错误等 - 智能体判断是不是还需要额外的信息，比如可以去搜索引擎搜索，或者调用工具获取必要的信息 - 当 LLM 生成内容后，在返回给用户之前，让智能体去检查答案是不是和问题相关，是不是能解决用户的问题，如果不行，则返回第一步，修改查询内容，继续迭代，直到找到相关的内容，或者判断该问题无法回答，告知用户结果。当然这样做的缺点是成本要相对高一些，并且耗时会更长。

#RAG #Agentic RAG #向量数据库 #LLM #自然语言处理 #信息检索 #数据处理

🇺🇸为自由而战-天山剑客🇺🇸

1年前

🔥马斯克：特斯拉自动驾驶在黑暗中也能看的很清楚。我们去掉了摄像头的后期处理，只保留数据。计算机获取的数据远超摄像头呈现的画面。能捕捉极低光条件下光子差异，比你想象的还精确！此外，这还让我们减少了13毫秒的延迟。

#马斯克 #特斯拉 #自动驾驶 #黑暗视觉 #摄像头技术 #数据处理 #延迟优化