时政
财经
科技
虚拟货币
其他
登录
sitin
关注
统计数据
522
文章
0
粉丝
0
获赞
2455
阅读
热门文章
1
TechFlow 深潮 发布的文章:近期教育领域的变化引发了广泛讨论,我认为教育改革应该更加注重学生的个性化发展和创新能...
145
32
sitin
1个月前
周末和兄弟们一起干出来,卷起来,最近开发 Claude code 忙的飞起,喝杯咖啡提提神,干就完了💪⛽️
AI编程工具激战:Claude Code、Gemini Cli崛起· 951 条信息
#兄弟
#周末
#Claude Code
#开发
#咖啡
#忙
#加油
分享
评论 0
0
sitin
1个月前
用了 ChatGPT 的 codex 对比比 Claude code感觉又卡又慢的,不知道是不是刚开始不习惯,这几天多测试下
AI编程工具激战:Claude Code、Gemini Cli崛起· 951 条信息
#ChatGPT
#Codex
#Claude
#代码对比
#速度慢
分享
评论 0
0
sitin
1个月前
Ideogram 推出了名为“Ideogram Styles”的新功能,旨在通过风格化处理,将简单的用户提示词转化为具有高级、一致美学的图像,并特别优化了文字渲染能力,提供了一个由官方精心策划的预设风格库,用户可以直接选用。 核心功能要点 1.风格转化:核心功能是将基础、简单的文本提示(Prompt)自动转化为具有特定高级审美风格的图像。 2.文字渲染强化:该功能显著提升了图像中文字(如标语、字体设计)的生成质量和准确性,使其能轻松融入不同风格中,方便用户进行创意字体和T恤等设计。 3.自定义风格:用户不仅可以选用官方预设风格,还能上传最多3张参考图片来创建并保存属于自己的、可重复使用的自定义风格。 与 Describe、Remix、Color Palette 等功能配合,帮助用户在美学与精准度之间找到平衡。整体而言,这一功能旨在让创作者为作品注入独特个性与一致美学,提升设计的表现力与识别度。
#Ideogram Styles
#风格转化
#文字渲染强化
#自定义风格
#图像生成
分享
评论 0
0
sitin
1个月前
很多人在做副业的时候,啥进度、产品、开发、营销都没有的时候,先想到这个副业项目的风险,难度。 你又不是要赚几百上千万,要考虑各种情况 你赚个几千块钱,想啥风险?啥业务不可以干! 悲观者往往正确,乐观者往往成功。
#阶层固化:求变之路,殊途同归· 690 条信息
#副业
#风险
#行动力
#乐观
#成功
分享
评论 0
0
sitin
1个月前
昨天跟朋友聊起一个现象: 身边越来越多人,都在花 200 美刀买 Claude 和 ChatGPT。 有些人不理解:为什么要花几百美刀买个 AI? 但稍微算一下账就明白了: 请一个兼职写手,一个月可能要 3000+; 请个程序员写点小工具,至少要几千; 更别说请人帮你做营销、帮你出方案。 可现在,只要 200 美刀, 你就能随时拥有一个“懂产品、懂代码、懂营销、懂写作”的超级助理。 帮你做决策、写文案、出方案、跑代码, 效率提升几倍 这不是花钱,而是买杠杆。 买的是比别人更快一步的机会。
AI编程工具激战:Claude Code、Gemini Cli崛起· 951 条信息
#AI工具
#Claude
#ChatGPT
#效率提升
#商业价值
分享
评论 0
0
sitin
1个月前
vibe coding 的时候用 cursor 来进行打开项目文件,在 cursor 里面装一个 Claude code chat 的插件,就可以用 cursor 和 Claude code 联合开发了。
AI编程工具激战:Claude Code、Gemini Cli崛起· 951 条信息
#Vibe Coding
#Cursor
#Claude code chat
#联合开发
#项目文件
分享
评论 0
0
sitin
1个月前
ElevenLabs 正式发布了其新一代 AI 音效生成工具——SFX 模型 v2,并详细介绍了该模型的重大升级、广泛的应用场景以及配套的新功能。 1.新版本相比之前有显著提升,重点是: 更高质量的音效生成。 ·无缝循环:生成的音效可以完美循环播放,没有断续感。 ·更长时长:支持生成最长30秒的音效。 ·更高采样率:达到48kHz的专业音频标准。 2.广泛的应用场景:文章花了大量篇幅说明这个工具可以用于哪些领域,包括: ·音频内容创作(有声书、播客、冥想应用) ·视频与电影制作 ·游戏开发(环境音、结合MIDI实时控制) ·生产力工具(为专注应用添加背景音) 3.新功能与生态整合:发布不仅是一个模型更新,还包含了平台功能的增强: ·Studio 编辑器集成:用户可以直接在ElevenLabs的工作室中输入文字提示来生成和编辑背景音。 ·升级的音效库(SFX Library):内容更丰富,并新增了“收藏”和“Remix(再生成)”功能,方便用户管理和创意发散。 ·SB-1 音效板升级:支持新模型和MIDI设备,互动性更强。
#elevenlabs
#SFX模型v2
#AI音效生成
#音频内容创作
#Studio编辑器
分享
评论 0
0
sitin
1个月前
找到一个自己还没有定期锻炼的理由哈哈
#锻炼
#理由
#幽默
#未锻炼
#调侃
分享
评论 0
0
sitin
1个月前
美团发布并开源 LongCat-flash-Chat,采用混合专家模型架构的 A1 模型,总参数量达 560B,平均激活参数 27B。 在性能上比肩主流模型,尤其在智能体任务中表现突出,推理速度更快,适合复杂智能体应用。可以访问官方平台Longcat Al,与 LongCat-Flash-chat 开启对话。 核心亮点: 1.高效动态计算:模型引入了“零计算专家(Zero-Computation Experts)”机制,能根据上下文需求动态分配算力,仅激活必要的专家模块3。训练过程甚至采用了PID控制器来实时微调专家偏置,以稳定单token的平均激活参数量,有效控制总计算消耗16。 2.卓越性能表现:在多项基准测试中,LongCat-Flash-Chat性能可比肩当前主流模型,尤其在智能体(Agentic)任务中表现出突出优势12。其在复杂场景智能体基准(VitaBench)和指令遵循评估(IFEval)中取得了名列前茅的成绩36。 3.极致的推理速度与成本:通过算法和工程层面的联合优化,该模型在H800显卡上实现了每秒100+ token的生成速度,同时将输出成本控制在低至5元/百万token56,为耗时较长的复杂智能体应用提供了更优解。 4.全面开源与许可:模型已在 GitHub 和 Hugging Face 平台开源,并提供了基于SGLang和vLLM的高效部署方案6。其开源仓库采用MIT License,允许用户自由使用模型输出甚至通过蒸馏方式训练其他模型
#美团
#LongCat-flash-Chat
#开源
#A1模型
#智能体应用
分享
评论 0
0
sitin
1个月前
现在很多人都在用 AI 做业务,但大多数人还停留在“知识付费”这个层面——也就是卖课。 卖课当然没问题,能赚钱,但它有个明显的短板:不够持续。尤其是那些做长周期合伙人模式的人,复购和续费率往往压力很大。 为了维持收入,不得不持续依赖分销、或者不断推出新课程。根本原因在于,纯课程产品的复购属性天然偏弱。 反过来看工具产品,逻辑就很不一样。 比如,你教别人做副业,他们学完了、会了,接下来你还可以提供一套配套工具——帮助他们更高效地运营、管理或放大结果。而这套工具,可以按月/按年订阅收费,持续产生现金流。 目前很多人觉得做工具太难,但这件事在 AI 时代已经发生了本质变化。尤其是咱们这群在AI领域深度探索的人,更应该看懂这个机会。 现在每天都有大量低代码、零代码工具冒出来,AI 还在加速这个过程。真正做工具,80% 的精力其实不在写代码,而在于:需求挖掘 + 营销推广。产品开发只占 20%,而这部分 95% 的代码 AI 都能帮你写。 所以我们真正要掌握的,是逻辑、是需求、是用户痛点。尤其是已经做课、做社群的人,你其实自带两大优势: 需求验证:你的学员愿意付费,说明痛点真实; 推广渠道:你已有信任和影响力,工具顺手就可推出去。 我一直强调:别害怕做工具,别觉得自己不是技术出身就做不了。恰恰相反,很多文科生、内容人更懂用户、更擅营销——这才是成败的关键。 简单总结: 靠课程,你赚一次钱,靠年度复购(续费)持续,相对简单; 靠工具,你能持续赚钱,订阅制带来稳定现金流,难度略高但更值得。 最终希望大家既做课、也做工具,用“内容杠杆”吸引用户,用“工具体系”留住用户,花 20% 的时间拿到 80% 的结果,真正放大你的价值。 AI 时代,节奏极快,一年如十年。会做产品、会推工具的人,会持续领先。
#AI
#知识付费
#工具产品
#订阅模式
#内容营销
分享
评论 0
0
sitin
1个月前
千里会一周年 🎉 转眼之间,我的千里会就已经一年了,没想到过得这么快。总结一点我做千里会的一些心得吧: 1.高客单产品的底层逻辑:高客单≠割韭菜,而是用更高利润支撑更重、更个性化的服务。 2.不要给自己贴过多标签:创业几年也做过蛮多东西的,“标签过多”导致用户认知分散,建议:聚焦1~2个核心标签(如AI出海),更易占领心智。 3.不要迷恋“发售活动”:发售能起势,但不能长期依赖。发售只是“放大器”,不是“救命草”,真正重要的是日常内容+稳定交付+口碑。 4.内容是最好的广告:“交付才是最硬的营销”。好内容会自带传播,带来精准用户。很多人做自媒体失败是因为没把内容放在第一优先级。内容是一切流量的起点。 5.创始人不能脱离内容:即使有团队,IP类产品(如个人品牌)仍需创始人亲力亲为。内容风格无法被完全替代。“创始人精力在哪儿,结果就在哪儿。” 6.信任是付费的基石:高客单产品本质上卖的是信任。用户愿意付费是对你极大的认可,必须用超预期服务回报。 7.线下活动增强信任:线下见面能极大增强社群凝聚力和信任感,尤其适合高客单社群。 8. AI是最大杠杆:比如AI代写:门槛低、正反馈快、天花板高;AI出海:海外付费意愿是国内5倍,汇率差是7倍,合计35倍收益杠杆。 原文链接:
#千里会一周年
#高客单产品
#内容营销
#AI杠杆
#信任基石
分享
评论 0
0
sitin
1个月前
微信语音输入法感觉偷偷更新了,明显感觉到这两天的语音输入识别率增加了不少
#微信
#语音输入法
#更新
#识别率
#提升
分享
评论 0
0
sitin
1个月前
USO(Unified Style-Subject Optimized 模型) 是字节跳动提出的一个统一图像生成模型, 融合了风格驱动生成与主体驱动生成两个任务,并通过创新的训练机制将它们整合在一个统一框架中,解决了二者长期以来分离、互相影响的问题。 性能优势 在 USO-Bench 和 DreamBench 评测中全面领先: 主体一致性(CLIP-I, DINO)优于主流模型; 风格相似性(CSD)显著超过 DEADiff、StyleStudio 等; 图文匹配度(CLIP-T)保持高水平。 关键技术 三元组训练数据(Triplets) 使用(内容图 + 风格图 + 结果图)作为训练样本,让模型学会分离风格与主体特征并融合。 风格对齐训练(Style Alignment) 采用视觉语言模型 SigLIP 提取高层次风格特征(如笔触、材质),并通过分层投影注入生成过程。 风格奖励学习(Style Reward Learning, SRL) 引入奖励机制,用预训练模型评估生成图像与目标风格的相似度,强化风格还原能力。 功能 主体驱动生成 保留主体(如人物、宠物)特征,生成新背景或姿态。 风格驱动生成 仅凭风格参考图+文本生成对应风格的图像。 风格+主体联合生成 同时输入风格图和内容图,生成既保真又风格化的图像。 多风格融合生成 支持多张风格图混合生成(如油画+水彩)。 布局保持生成 仅改变风格,不改变原图布局与主体结构。
#USO模型
#图像生成
#风格驱动
#主体驱动
#字节跳动
分享
评论 0
0
sitin
1个月前
执行力比想法更重要! 赚钱这个事情真的拼的是执行力,大部分还是想得太多做的太少。 很多人脑子里有一堆点子,但就是迟迟不行动。等想清楚了,机会也没了。
#阶层固化:求变之路,殊途同归· 690 条信息
#执行力
#行动
#机会
#赚钱
#想法
分享
评论 0
0
sitin
1个月前
这个 whisper flow 居然有vibe coding 和 command mode,确实牛,一个月 15 美金的语音输入法,估计也只有他了,贵有贵的道理
#whisper flow
#Vibe Coding
#command mode
#语音输入法
#价格
分享
评论 0
0
sitin
1个月前
OpenAI 正式发布 Realtime API 降价20% 支持MCP、图像输入、可接入电话系统、新的语音和优化 与传统方案(语音转文字 + 大模型生成文字 + 文字转语音)不同,Realtime API 直接通过一个统一模型完成 语音输入-语音输出,从而减少延迟、保留语气细节,并生成更自然的对话体验。 1.模型能力的全方位提升 语音质量:生成的声音更接近真人(语调、停顿、速度),并发布新声音和优化旧声音。 语言能力:支持句内无缝切换语言、识别和表达非语言声音(如笑声)、跨语言准确朗读数字字母组合。 智能水平:在推理能力、指令遵循精度和函数调用能力三大基准测试上,相比前代模型均有显著提升(准确率提升超10个百分点)。 2.新增关键功能与优化 流程优化:支持异步函数调用,允许在后台执行长时间任务(如查数据库)时不打断前台对话。 功能扩展 (MCP):可通过 Model Context Protocol 轻松连接远程工具服务器,极大扩展了模型的能力边界。 多模态输入 (图像):除了语音和文字,现在可以输入图片让模型理解和分析。 企业集成 (SIP):支持 SIP 协议,使其能直接接入传统电话网络,用于呼叫中心等场景。 部署效率 (可复用提示):提供“模板化”的提示词管理功能,便于大规模标准化部署。
OpenAI大幅降价,o3模型API调用费用骤降80%· 6 条信息
#OpenAI
#Realtime API
#语音技术
#多模态输入
#企业集成
分享
评论 0
0
sitin
1个月前
很多人还觉得,努力就是多花时间、多加班。 但真正会工作的人,想的不是“拼命”,而是“省力”。 能用AI/工具来做的事情,你不用再一遍遍手动操作,省下来的时间,可以做更有价值的事。 不是只有“苦干”才行,学会“巧干”,反而走得更远。 观念转过来,路就宽了。
#AI工具
#效率提升
#工作方式
#观念转变
#巧干
分享
评论 0
0
sitin
1个月前
通义万相开源了全新多模态视频生成模型「Wan2.2-S2V」。 模型仅需一张静态图片和一段音频,能生成电影级数字人视频,视频时长可达分钟级,大幅提升数字人直播、影视制作等行业的视频创作效率。模型支持真人、卡通、动物等多种图片类型,可通过文本控制视频画面。 核心功能 多模态视频生成:仅需一张静态图片 + 一段音频,就能生成电影级数字人视频 支持多种图片类型:真人、卡通、动物、数字人等,支持肖像、半身、全身等任意画幅 多种动作生成:说话、唱歌、表演等动作,面部表情自然、口型同步、肢体动作流畅 技术亮点 视频时长:单次生成可达分钟级,达到业界领先水平 文本控制:支持通过Prompt控制视频画面,让动作和背景变化更丰富 技术创新: 融合文本引导的全局运动控制和音频驱动的细粒度局部运动 采用AdaIN和CrossAttention控制机制 层次化帧压缩技术,支持73帧历史参考帧 多分辨率训练和推理 应用场景 主要提升数字人直播、影视制作、AI教育等行业的视频创作效率
AI视频井喷:Midjourney领跑,多模态混战· 233 条信息
#通义万相
#多模态视频生成
#数字人
#AI
#视频创作
分享
评论 0
0
sitin
1个月前
有同学在问我怎么进行 AI 编程。我一般是先跟 Claude 沟通,把这个需求定下来。之后生成一个文档,生成完文档之后,让另外一个 Claude 去执行里面的内容。 执行完之后,我一般会用 PlayWright 来让整个 AI 帮我测试。这样就能保证一些基础问题不会出现。否则的话,AI 开发完了之后,可能会出现一些基础的页面问题、组件缺失问题等等,这样也会浪费时间。
AI编程工具激战:Claude Code、Gemini Cli崛起· 951 条信息
#AI编程
#Claude
#Playwright
#AI测试
#自动化测试
分享
评论 0
0
sitin
1个月前
时代抛弃你的时候,连声招呼都不会打。 刚看到新闻,又有公司开始裁员了,理由是"提高效率,减少重复岗位"。 想起之前和一位做HR的朋友聊到:未来五年,最能稳住工作的未必是最聪明的人,而是那些懂得用机器人配合自己干活的人。
#裁员
#职场
#机器人
#效率
#焦虑
分享
评论 0
0
sitin
1个月前
赚钱这件事,真的要顺应趋势。 今天有了更深的体会。 在一个 20 人的小群里,我随口说了句:我用 AI 做了个 Claude code 共享平台,没发介绍,也没铺垫,结果 299 一个人,立马来了 6 个兄弟,到手近 2000。 天时、地利、人和,缺一不可。 但比起“人和”,我发现“天时”和“地利”更重要。趋势对了,产品自然顺。 欢迎一起来 vibe coding,一起 AI 出海!
AI编程工具激战:Claude Code、Gemini Cli崛起· 951 条信息
#AI
#Claude
#共享平台
#赚钱
#趋势
分享
评论 0
0
sitin
1个月前
Lovart 是 LiblibAI 为设计师打造的世界上首个专业设计 Agent。别的先不说,Lovart网页的设计还是蛮不错的。 Lovart 能像专业设计师一样思考和执行设计任务,提供高水平的设计方案。基于自然语言交互,用户能快速调整布局、颜色和构图。 Lovart 支持从创意拆解到专业交付的全链路设计,单次能生成多达40张设计成品图。Lovart 是图像生成器,更是设计执行官,引领着设计工具迈向智能化的新阶段。 核心特点 1.全自动化的设计流程: 与传统设计工具(如Canva、Photoshop)或需要人工反复调试提示词(Prompt)的AI生图工具(如Midjourney)不同,Lovart 旨在通过简单的指令(如一句话描述)自动完成从创意生成到最终设计的全过程。 2.专业级的输出质量: 它宣称专门为品牌设计、营销素材等领域进行优化,其输出结果并非简单的图片,而是可直接商用的、符合行业标准的设计作品,如LOGO、海报、包装、社交媒体广告等。 3.多模态输出能力: 不仅能生成图像,还能产出文案(Copywriting),提供完整的设计方案。例如,你让它设计一个咖啡品牌的海报,它既能生成视觉图,也能自动配上吸引人的广告语。 4.“AI Agent”工作流: 这是其最大亮点。它模拟了一个专业设计师的工作流程:理解需求 -> 头脑风暴 -> 草图构思 -> 精细设计 -> 呈现最终稿。你不需要干预中间步骤,它自己会完成这一切。 5.Lovart 的创新之处在于试图将需要多步骤、多专业知识的设计工作完全自动化。它不仅仅是一个“更聪明的AI画图工具”,而是一个旨在替代基础设计工作的虚拟设计师助手。
#Lovart
#AI设计
#自动化设计
#设计Agent
#LiblibAI
分享
评论 0
0
sitin
1个月前
Anthropic发布Claude for Chrome,一款作为浏览器扩展程序的AI工具。可在Chrome侧边窗口与用户对话,执行任务如设置日历、回复邮件等。 日历管理:自动识别需预订会议室的会议,检查可用性并完成预订 邮件处理:分析已发送邮件,识别未收到回复但需跟进的消息并生成提醒(如提醒用户跟进Mindy关于网站 redesign 的反馈请求) 信息检索与筛选:根据用户需求在第三方网站执行复杂/多需求设定的搜索。 Claude通过小规模试点收集数据和安全反馈,优化分类器和模型,让浏览器安全与功能同步升级。
AI编程工具激战:Claude Code、Gemini Cli崛起· 951 条信息
#Anthropic
#Claude for Chrome
#AI工具
#浏览器扩展
#效率提升
分享
评论 0
0
sitin
1个月前
永远不要用健康换钱;身体是公司最大本钱,累了休息,焦虑多动,照顾好家庭。
#健康
#工作与生活平衡
#家庭
#积极
分享
评论 0
0
sitin
1个月前
Google 推出 Gemini 2.5 Flash Image 模型,主打原生图像生成与编辑功能,官方称其技术为"state-of-the-art"并排名全球第一,向所有用户免费开放,支持通过 Gemini App 和 Google AI Studio 访问。 核心功能特性 支持上传3张图片并融合创意元素 人像风格转换保持主体特征(如自拍优化) 文本添加、背景替换与主体修改 生成内容需遵守Google内容政策,禁止侵权使用 图像处理的技术优势 高效架构:尽管模型体积更小,但它采用了与 Gemini 2.5 Pro 相同的突破性 混合专家(Mixture-of-Experts, MoE) 架构。 这意味着它只针对特定任务激活神经网络中最相关的部分,使得图像处理速度极快、效率极高。 超长上下文窗口:它支持实验性的 100万token 上下文窗口。虽然单张图片用不到这么多,但这允许您在单个提示中处理数十张图片或长视频,并对整个集合进行提问和分析。 访问方式与配置 Gemini App:选择"2.5 Flash"模型(标注"Fast all-around help") Google AI Studio:选择"Gemini Native Image"功能模块,需科学上网环境,当前因用户量大存在卡顿现象 使用限制 风格转换功能稳定性不足,部分效果需多次尝试 高峰期访问存在服务器拥堵问题 所有生成内容需遵守Google安全政策与版权规定
Google Gemini 2.5发布引发AI模型性价比热议· 215 条信息
OpenAI新德里发布会:ChatGPT语音翻译功能引发热议· 548 条信息
#Google
#Gemini 2.5 Flash Image
#图像生成
#免费开放
#AI Studio
分享
评论 0
0
上一页
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
...
21
下一页
个人主页
通知
我的投稿
我的关注
我的拉黑
我的评论
我的点赞