sitin

统计数据

790

文章

0

粉丝

0

获赞

11968

阅读

2个月前

发现了一个浏览器自动化开源项目—— Chrome 插件：Nanobrowser Nanobrowser是一款开源的Chrome浏览器插件，通过接入AI大模型API实现网页自动化操作。配置简单，支持中文指令，无需编程基础采用多智能体架构，包含规划者（Planner）、导航者（Navigator）和验证者（Validator）三个角色协同工作，能自动完成网页跳转、数据提取等任务。只需在侧边栏输入自然语言指令，例如“前往HuggingFace查看热门论文”，插件即可自动执行并返回结果。支持OpenAI、DeepSeek等主流模型，所有操作均在本地浏览器完成，保障数据隐私。主要功能多智能体系统（Multi-agent System）: Planner（规划器）：负责制定和调整任务策略。 Navigator（导航器）：执行网页导航和操作。 Validator（验证器）：检查任务是否成功完成。交互式侧边栏：提供直观的聊天界面，实时显示任务状态，用户用自然语言与智能体交互。任务自动化：自动化重复性网页任务，如信息提取、数据整理等，节省时间和精力。多 LLM 支持：支持连接多种大型语言模型（LLM）提供商，用户根据需求为不同智能体选择不同的模型。该工具适用于电商比价、信息采集、办公自动化等场景，安装后无需订阅费用，适合追求高效且注重隐私的用户。

#浏览器自动化 #Chrome插件 #AI大模型 #多智能体系统 #数据隐私

2个月前

周末在公司和 Claude code 聊了大半天业务设计和 MVP，plan 模式真的好用，避免一开始大而全，做出来的东西没人要，出于自嗨状态

AI编程工具激战：Claude Code、Gemini Cli崛起· 1256 条信息

#业务设计 #MVP #plan模式 #周末加班 #Claude

2个月前

自媒体人常说“内容选题决定流量上限”，对出海人来说关键词决定了你的网站能不能获得流量，这也就是为什么说做网站前期挖掘需求、找词特别重要，要占40%的精力。现在有什么热点词汇？做哪个方向比较容易踩中趋势？用户现在在关心什么？ Google 自家就提供了一个完全免费的趋势洞察工具——Google Trends（谷歌趋势）。用它能快速判断一个关键词在全球的热度变化、主要市场，以及相关上升词。基础定义基于Google搜索数据，展示关键词热度趋势（涨跌）、地域分布、相关话题热度值含义：100=指定范围内最高点，50=最高点一半，0=数据不足（非绝对搜索量）数据解读维度热度曲线：判断关键词上升/下降趋势（如Sora在2025.10.5-11热度达100）地域分布：识别核心市场（如Sora热度最高地区为斯洛文尼亚100、罗马尼亚50、中国31）相关话题：挖掘关联需求（如Sora相关的"Veo - Text-to-video model"呈Breakout趋势）上升关键词：捕捉爆发需求（如"sora invite code"系列词均为Breakout）出海实战用法 ① 找选题方向搜你感兴趣的方向，看热度曲线和爆红词。 ② 做市场调研开发产品前，先通过趋势判断哪类需求正在增长，避免踩坑。 ③ 判断目标市场通过按地区查看，可以快速识别哪个国家更关注该词，从而决定网站语言、支付方式、广告受众等。 ④ 拓展 SEO 关键词 Google Trends 虽然不显示具体搜索量，但能给出方向。把爆红词复制到 Google Keyword Planner / Ahrefs / Semrush 等工具里，就能查出更细的长尾词。总结，Google Trends 是起步阶段实用、高性价比的需求指南针。

#Google Trends #关键词挖掘 #出海SEO #市场调研 #热点趋势

2个月前

建议大家，平时主业忙、或者被其他事干扰，没心思做副业的时候，就多想想自己未来想要的状态。想明白了，再咬牙多坚持折腾一阵，拿到结果其实是早晚的事。最怕的就是 “干几天就放弃”。要知道，大部分人做副业都是兼职，本来就不算 “生死存亡” 的事儿，没必要因为短期没结果就慌。反而像我们这种全职创业的，有时候为了公司能活下来，还得做一些偏离主线的事。

#副业 #坚持 #全职创业 #心态 #未来

2个月前

发现一个有意思的现象：国内：做个工具，恨不得服务所有人结果：功能越做越多，谁都不满意海外：专门服务某一小撮人比如：给Notion用户做的日历插件给播客主持人做的剪辑工具给独立开发者做的落地页生成器市场足够大，细分到1%也够活。不用跟大厂拼全能，找准一个小点，做深做透就行。

独立创业者如何突破零收入困境，迈向月入1000元· 307 条信息

#小众市场 #工具产品 #用户需求 #市场细分 #产品定位

2个月前

微软发布 Copilot 一系列重磅更新，全面拓展其在生产力、协作、学习和健康领域的功能。通过 Connectors，用户可以用自然语言跨多平台搜索文件与信息，打通个人数字生态； Groups 引入实时协作机制，让团队沟通更加顺畅；Edge Copilot 模式则让浏览器变成智能助理，可自动整理和操作网页内容。跨平台找东西：一句自然语言，跨 OneDrive、Gmail、Google Drive、Outlook、Calendar 一起搜（Connectors）。团队一起用：拉群协作、自动总结、投票分选项、分任务（Groups）。浏览器变助理：在 Edge 里直接让 Copilot 总结网页、执行操作、按“故事线”整理你的研究路径（Copilot Mode）。学得更有效：像语音家教一样，苏格拉底式问答带你理解概念（Learn Live）。健康更安心：基于权威来源提供科普与找医生建议（Copilot for Health）。更有温度：虚拟角色 Mico 会“看脸色”、给反馈，交互更自然。系统级整合：Windows 上随时语音唤醒、找文件、做引导（Windows Copilot）。多模态更聪明：视觉+语音一体化，核心引擎升级到 GPT-5（理解更深、反应更自然、多语言更顺）。更多功能： 1.拍照/截图让它“看懂”：识别场景、翻译路牌、分析一个网页/App 界面该怎么操作（Copilot Vision）。 2.用语音聊天：做饭或开车时直接说“帮我看这篇文章的要点”“写封英文商务邮件”（Copilot Voice）。 3.一键创作：写文章、生成图片、拉研究报告、甚至做播客脚本。 4.管理日常：健康咨询、购物比价、学习计划、代办任务。 5.联动你云端资料：跨云盘/邮箱/日历快速把文件、邮件、会议全串起来。这次更新把 Copilot 从“一个聪明的聊天窗口”，推成了“你的跨设备、跨平台、跨场景的 AI 副驾”。当它能看、能听、能记、还能帮你“把事干了”，效率的天花板就被抬高了一截。如果你只想先试一个点：就从 Edge 的 Copilot 模式开始 —— 它最直观，也最能立刻省时间。

#Copilot #微软 #AI #生产力 #跨平台

2个月前

Twitter 有兄弟说我天天发 Twitter 还有时间搞产品？发 Twitter，发朋友圈，发小红书，公众号不是搞产品顺手就发了么？早些年我也不理解丁香园某大V 被喷得时候，说天天发自媒体内容，如何做得了产品，多年以后才开始理解，这又不是很费力的事情。╮(╯▽╰)╭

#Twitter #产品 #自媒体 #丁香园 #理解

2个月前

很多人用 Claude Code 来写网页、做应用，但真正的突破，其实发生在它“开始与世界对话”的那一刻。当你让 Claude Code 通过 API 调用外部服务时，它不再只是一个写代码的 AI，而是一个能访问数据、执行操作、实时反馈的智能开发伙伴。 Claude Code 的突破在于通过 API 调用外部服务，从“代码生成工具”升级为“智能开发伙伴”，实现动态数据访问、外部请求执行和实时反馈开发者无需手动编写完整逻辑，仅需自然语言指令即可完成从功能实现到界面设计的全流程开发 API 调用三大核心能力： 1.接口文档理解：粘贴 API 文档链接后自动提炼关键参数 2.请求逻辑生成：自动构造 fetch()/axios 调用并处理错误 3.交互界面设计：同步生成前端输入输出区，实现数据可视化呈现实战案例：实时天气查询网站 1.需求描述：输入“帮我写一个页面，用户输入城市名显示实时天气” 2.自动生成内容：完整项目结构（含 .env.local 文件模板） API 调用逻辑（推荐 OpenWeatherMap API 免费版）前端界面（输入框、查询按钮、结果展示区） 3.优化指令：添加错误处理：空输入/城市未找到/网络错误提示美化 UI：渐变背景、圆角卡片、动态天气图标功能特性 ✅ 实时天气数据（温度、体感温度、湿度、风速、气压） ✅ 响应式设计适配多屏幕尺寸 ✅ 加载动画与错误提示（淡红色背景+警告图标） ✅ 回车快捷查询与天气图标动态匹配进阶应用场景 1.多 API 联动：天气数据 + 翻译 API 实现多语言显示（如“北京：多云 28°C (Cloudy)”）能力整合：调用 OpenAI/Stability API 生成智能对话或图像 3.数据持久化：结合 Supabase/Airtable 存储 API 数据用于分析技术实现要点 1.前端技术栈：HTML/CSS/JavaScript（或 Next.js + TypeScript） 2.API 路由设计：通过 Next.js App Router 创建 /api/weather 接口 3.环境配置：.env.local 存储 API Key（如 OPENWEATHER_KEY） 4.UI 框架：Tailwind CSS 实现渐变背景、玻璃态效果和交互动画

AI编程工具激战：Claude Code、Gemini Cli崛起· 1256 条信息

#Claude Code #API调用 #智能开发 #实时天气查询 #Next.js

2个月前

1.最近两款小工具 PayForChat（）陆续上线了，看着大家各种各样的问题。真的是哭笑不得，本来一个两三天搞出来的产品，但是优化各种细节又要花几天，你永远不知道大家会在哪一个步骤上面出现卡点。你以为很简单的事情，但别人面前就是一个很复杂的事物，这就是知识的诅咒。还好有 AI 在。 2. 自从有了 AI 在，可以折腾好多好多玩具，每天都在创造新东西，太有意思了。做产品之后，会因为一个 bug 的改进而兴奋，也会因为一个 bug 迟迟不能解决而沮丧。 3. 做产品最怕的就是自己花了很多时间优化，结果压根没有人用，最近出海的兄弟说自己这个网站不太好意思发在我们上面。觉得做的不好，怕丢人，其实不管这个产品做的怎么样，先丢出来让大家可以看到很重要，只有这样才能够经受住最真实的反馈，而不是自己闭门造车。 4. 程序员最容易陷入产品开发泥潭，认为产品开发是一切，但是除了开发还有需求挖掘，营销推广，而后这两样要占据 80%

独立创业者如何突破零收入困境，迈向月入1000元· 307 条信息

#PayForChat #AI #产品开发 #用户反馈 #知识的诅咒

2个月前

周末，驱车 100 公里带小朋友参加考试，喝杯咖啡，办个公

#周末 #亲子 #考试 #咖啡 #办公

2个月前

又删了一个白嫖怪，每次都有事情来请教，然后提到付费，就支支吾吾的。有人觉得这样太功利了吧，把自己定义为贪财好色的人，就不会被道德绑架。

#白嫖怪 #功利 #道德绑架 #付费 #贪财好色

2个月前

微信禁言 1 天恢复了，以为很多人找我，其实也就 10 来个人，看来自己也没想象中重要，也是能脱离微信的。努力干海外。

#微信禁言 #社交媒体 #用户反思 #海外发展 #个人价值

2个月前

做了飞书webhook群消息通知，这个也是很不错，最近把很多消息通知都给飞书群了，另外飞书企业域名邮箱贼方便推荐给大家，可以同时管理多个域名，专业免费。

#飞书 #webhook #消息通知 #企业邮箱 #效率工具

2个月前

Decart 和 ElevenLabs 联合退出唇形同步 API 让 AI 角色说话时嘴型完全同步、语气自然、有情感低延迟 + 真唇形：ElevenLabs 负责流式输出情感语音，Decart 的 Lipsync 服务实时把每个音素映射成嘴部动画帧，边说边对齐，不再“对不上嘴”。能被“礼貌地打断”：用户一开口，VAD（语音活动检测）触发中断信号，角色会自然停下，再接着对话，不会“自顾自说完”。上下文一致：历史对话、语气、情绪被放在统一上下文里，声音的情感走向会影响到表情和节奏，整个人设更连贯。谁负责啥？ Decart（嘴型与表情）：专门做实时唇形同步。它吃进音频流，按音素生成逐帧动画；还自带 latency buffering / 补帧 / 平滑中断，避免嘴型“跳帧”。 ElevenLabs（声音与情感）：提供多语言、情感丰富的 TTS，并支持低延迟流式输出；他们的 Flash 系列模型官方文档写的是~75ms 级实时应用优化，这也是能把端到端链路拉到“毫秒级体验”的前提。一句话：ElevenLabs 给角色“灵魂”，Decart 让角色“活起来”。

#Decart #elevenlabs #唇形同步 API #AI 角色 #情感语音

2个月前

Sora APP 推出的几项重大更新——1.角色客串功能；2.视频编辑功能；3.社交体验增强；4.使用体验优化；版本即将上线 Character Cameos（角色客串）你可以把任意对象（宠物、玩偶、道具、AI 角色等）做成可复用的“客串角色”，在新视频里随时召唤。也能从你之前的 Sora 视频里提取角色复用，形成自己的“角色资产库”。官方也在完善使用与权限控制，为创作者和被使用者提供更细的开关。 rending Cameos（热门客串趋势）生成界面将加入实时热门 cameo 趋势榜，方便发现和二创“全网在玩的人物/物件”。意味着：你可以像管理“素材库”一样管理角色，IP 化你的宠物/玩偶/原创角色，在不同视频里延续“世界观”。 Sora 将内置基础剪辑，率先支持多段拼接（stitching），后续再扩展更强编辑能力。路线图释放的信号很明确：从“纯生成器”走向“可编辑的创作平台”。 Sora 正在把“生成一次”变成“持续创作 + 社群共建”。抓住 Cameos + 社群频道 + 拼接工作流三件事，你的 AI 视频不止更好看，还能持续增长。

#Sora App #角色客串功能 #视频编辑功能 #社交体验增强 #使用体验优化

2个月前

做产品最开心的是很容易进入心流，几个小时就过去了，最近还蛮喜欢这种创造产品的过程，做定位是取舍，代价，最近花了蛮多时间在 AI 出海，自媒体其实落下了不少，流量，输出，虽然有但是少了，

独立创业者如何突破零收入困境，迈向月入1000元· 307 条信息

#产品创造 #AI出海 #自媒体 #心流体验 #取舍代价

2个月前

很多人觉得 “程序员肯定啥都懂”，其实现在 AI 出海这一套技术，90% 的程序员之前也没接触过，都是边查边学。咱们小白最大的优势就是 “敢问”—— 不用怕问的问题太简单，AI 和工具就是来帮你解决 “简单问题” 的。记住：学新领域的核心不是 “学会所有知识”，而是 “搞懂怎么学”。只要掌握 “查关键词 + 问 AI + 边练边试” 的路径，不管换哪个领域，都能快速上手。

#程序员 #AI出海 #学习方法 #快速上手 #敢问

2个月前

国内约束真的太大了，就刚刚发了转发了公众号文章，带有副业的词语，微信直接封了 1 天，真的无语，简直没办法好好玩了。

#微信封号 #副业限制 #国内环境约束 #个人经历 #负面情绪

2个月前

OpenAl发布首款AI原生浏览器ChatGPT Atlas。浏览器基于谷歌开源的Chromium内核打造，整合了ChatGPT对话能力，每个标签页都能直接聊天。具备浏览器上下文助手能力，可直接在浏览页面提问;内置记忆功能，记录用户浏览关键内容;"Cursor Chat”功能可选中文本进行编辑润色;Agent模式能完成网页操作，如填写表单、预订等。五大核心功能 1.ChatGPT对话能力：每个标签页内置聊天窗口，可直接对当前网页内容提问（如"总结本文核心观点"），无需复制粘贴上下文 2.浏览器上下文助手：实时感知浏览内容并提供专属服务，例如浏览旅游攻略时自动推荐行程规划；侧边栏"Ask ChatGPT"按钮支持即时交互 3.内置记忆能力：可选功能，记录浏览关键内容、任务进度和关注话题；隐私保护机制：可随时查看/归档/删除记忆，清除历史时同步删除相关数据 4.Cursor Chat文本交互：选中文本即可触发ChatGPT编辑、润色功能，无需切换应用；支持邮件改写、报告优化等场景 5.Agent Mode智能体能力核心案例：自动完成"晚宴筹备"全流程（查找菜谱→添加食材至购物车→下单）；替用户执行深度研究、比价、表单填写、餐厅/机票预订等操作权限控制：敏感网站（如金融平台）操作需用户确认

#OpenAI #ChatGPT Atlas #AI原生浏览器 #智能体Agent模式 #浏览器上下文助手

2个月前

OpenAI 推出了全新的浏览器——ChatGPT Atlas。它并不是一个带聊天框的普通浏览器，而是一种将 ChatGPT 深度嵌入浏览体验中的智能交互平台。 Atlas 让 ChatGPT 不再是一个独立的网页或应用，而是一个随处可用的认知层（Cognitive Layer），在你浏览网页时，实时理解、总结、建议或执行操作。首发平台：macOS 面向人群：所有 ChatGPT 用户（Free、Plus、Pro、Go）

#OpenAI #ChatGPT Atlas #智能浏览器 #认知层 #MacOS

2个月前

撒钱了！🚀 AI 浏览器大战升级！ ChatGPT 推出浏览器后，Perplexity 急了，开启了 Comet推广大战，内测邀请码👇 👉 下载就能获得 20 美金，搞起来兄弟们。

Perplexity年度会员免费领取活动引发热潮· 30 条信息

#AI浏览器 #ChatGPT #perplexity #Comet推广 #撒钱

2个月前

海外手机卡推荐

#海外手机卡 #手机卡推荐

2个月前

智谱发布 GLM Coding Plan 企业版，基于 GLM-4.6 模型，为企业提供全面智能编程解决方案。产品在国际 API 平台OpenRouter 趋势榜中名列第一，融合多模态理解、联网搜索及智能编排能力，提供从代码生成到全链条开发协同的一站式服务。企业版具备高用量、低成本、高性能和高安全性，无缝适配 10 余款主流编程工具，支持灵活成员管理和使用数据分析。它解决什么问题？产能：更稳定的算力、更高的用量，适合多人并发、长任务、持续集成等“企业强度”的场景；安全与管理：企业级的数据隔离与传输/存储加密，配上成员管理与使用分析，方便做成本与产能的精细化分配。性能方面，GLM-4.6/4.5 在 Coding 上对标主流顶级模型；在图像/视频理解与联网搜索（MCP）的加持下，能够跑从“读文档、读截图、读报错”，到“生成代码、重构、补测试、出 PR”的全链路开发。

#智谱 #GLM Coding Plan 企业版 #智能编程解决方案 #GLM-4.6 模型 #企业级

2个月前

阿里巴巴通义千问团队发布的 Qwen3-VL，正是这样一款跨越视觉与语言边界的模型。它不仅能理解文字、生成内容，还能“看图识意”、“看视频理解场景”、“解析界面元素”，甚至自动生成 HTML/CSS 代码，让 AI 真正具备“视觉思考能力”。核心亮点 ·视觉理解飞跃：能看懂图片、网页、PDF、视频帧，进行语义推理和内容描述。 ·视觉编码生成：自动识别界面并生成 HTML/CSS/JS 代码。 ·空间与动态感知增强：判断位置、方向、交互元素，支持空间推理与动态视频理解。 ·多语言OCR：支持 32 种语言识别，弱光、模糊场景也能准确提取文字。 ·指令理解更强：基于更深层的 instruction-tuning，使交互更加自然。 ✅关于显存与性能： Qwen3-VL 的 2B 模型大约需要 8GB 显存可流畅运行，若使用 7B 或 72B 模型可搭配 LoRA 或量化推理方案。 ✅ 关于输入分辨率：图像可自动缩放到合适尺寸，但建议不超过 1024×1024。视频可自动抽取关键帧。 ✅ 关于输出优化：可通过 max_new_tokens、temperature、top_p 参数控制生成长度与随机性；对于多语言 OCR 任务，建议在 Prompt 中明确语言类型（如 “请用英文输出”）。

智谱直播发布全球最佳视觉模型GLM-4.5V，挑战AI视觉领域极限· 21 条信息

#通义千问 #Qwen3-VL #视觉理解 #多模态模型 #AI

2个月前

想清楚自己目标是啥，未来 5 年，10 年，自己是个什么样的状态，这个还蛮重要的。

#人生目标 #未来规划 #个人发展 #积极

...