Gorden Sun

统计数据

818

文章

0

粉丝

0

获赞

51556

阅读

2个月前

Gemini 3 Flash引入视觉推理能力采用“思考-行动-观察”的循环分析机制，而不是普通的一次性静态扫描。 Think (思考)：分析用户指令与初始图像，规划多步骤的视觉分析方案； Act (行动)：生成并执行Python代码，对图像进行主动操作（如放大、切割）或提取里面的数据做分析； Observe (观察)：将处理后的图像或结果追加到上下文，结合新视角进行二次确认，再生成最终回答。直接的结果是，提升了5%-10%的视觉测试评分，而且也能正确数出来6根手指。官方介绍：在线体验：

2个月前

谷歌大善人又发福利了（我劝你别发了，先多给点Banana配额吧） Google AI Pro会员（含学生领的会员），每月可以在GCP（谷歌云平台）领10美元的API额度，可以用于通过API调用Banana Pro、Gemini 3 Pro等，也可以直接在AI Studio里使用。领取地址：

2个月前

AI资讯日报，1月27日：

2个月前

怎么没人提AI泡沫了？ banana在Gemini里降智，banana API又又又限额，谷歌大砍反重力里的opus额度，sora2天天提示系统繁忙，甚至Gemini 3 Flash都开始429。我看现在是AI供不应求，AI泡沫还远得很。

2个月前

DeepSeek开源DeepSeek-OCR-2 AI像人类一样阅读图片。不再是传统的“从左到右、从上到下”的阅读顺序，而是先整体分析布局结构，拆分出要详细阅读的块，然后再开始详细阅读。这样做可以保持语义关联，上下文更连贯，而且性能更高。更重要的是，DeepSeek-OCR-2弃用了CLIP，改用Qwen2-0.5B，验证了使用LLM架构作为统一多模态编码器的可行性，为后续的多模态模型做好了技术准备。模型：

2个月前

Kimi开源K2.5 原生视觉多模态模型，支持分析图片。1000B总参数，32B激活参数。各项评分都非常高。在Kimi官网可以使用。模型：

2个月前

在Cloudflare买一个域名（10.46美元一年），然后绑定到存储桶上，你就有了一个10G空间的可分享网盘，其他人无需登录就能下载，用来分享小文件特别好用。

2个月前

AI资讯日报，1月26日：

2个月前

AI资讯日报，1月25日：

2个月前

字节开源Stable-DiffCoder：强劲的扩散代码模型扩散模型架构，8B大小在HumanEval (86.6%) 和 BigCodeBench评分上超过Qwen2.5-Coder-7B、Llama-3.1-8B。模型：

2个月前

AI资讯日报，1月24日：

2个月前

AI资讯日报，1月23日：

2个月前

Sweep Next-Edit：开源自动补全模型仅1.5B，可本地运行。补全能力优于Qwen3 8B，不过毕竟是小模型，不能报太大期望。模型：

2个月前

微软开源语音识别模型VibeVoice-ASR 9B大小，支持中文，能同时识别时间戳、说话人、说话内容，最长可以单次识别60分钟的音频。模型：在线体验：

2个月前

千问开源Qwen3-TTS 除了常规的文本生成语音，还支持设计声音和语音克隆。分0.6B和1.7B两个大小。效果不错，速度也很快。语音克隆的音色还原还可以，但是情感还原上不如Index TTS2。模型：在线体验：

2个月前

AI资讯日报，1月22日：

2个月前

Pencil：基于Claude Code的AI设计画布独立的应用，但是需要Claude Code登录后才能用。内置了几套设计组件库供选择，使用Claude按组件库的风格生成前端代码。特点是无限画布，且可以交互式操作，手动修改画布里的文案、颜色等。支持导入Figma文件。相比于谷歌的Stitch：优势是可以交互式可视化操作，Stitch必须手动改代码；内置的组件库完美避开了Claude习惯生成蓝紫色UI的缺点，但是可选方案优先，Stitch里Gemini的前端审美更高、更多样。最后，宣传视频做的是真好，大大提升了逼格。实际就是个代码和设计的双向编辑产品。官网：

2个月前

AI资讯日报，1月21日：

2个月前

Everything Claude Code：Anthropic黑客松冠军的生产级配置库复用这套配置，可以快速搭建起一套高水平的 AI 辅助编程环境。提供了从TDD（测试驱动开发）到代码审查的完整自动化流程，通过配置文件强制AI遵守团队代码规范，大幅降低了Review的人工成本。关键模块（这部分由AI辅助我梳理）： · Agents (专项智能体)：如 planner 负责需求拆解，architect 负责系统设计，security-reviewer 专注漏洞分析，避免单一大模型处理复杂任务时的能力退化。 · Skills (技能/知识库)：外挂的领域知识，包含 backend-patterns（后端模式）和 frontend-patterns（前端模式），让 AI 这里的代码符合特定技术栈的最佳实践。 · Commands (快捷指令)：将复杂 Prompt 封装为 Slash 命令，例如输入 /tdd 自动执行测试驱动开发流程，输入 /refactor-clean 自动清理死代码。 · Rules (核心准则)：AI 必须遵守的“宪法”，例如 security. md 禁止硬编码密钥，git-workflow. md 规范提交信息格式，确保输出质量底线。 · MCP Configs (工具集成)：预设了 GitHub、Supabase、Vercel 等常用开发工具的 MCP 连接配置，打通 IDE 与外部服务的连接。 Hooks (自动化钩子)：基于事件触发的自动化脚本，例如在工具使用前后自动检查 console.log 残留或运行特定的校验逻辑。 Github：

2个月前

Skill大全 Vercel上线的Skill大全网站，可以方便查找和快速安装Skills，可以时常翻翻。网址：

2个月前

ChatGPT已经可以进行年龄认证了，很快就能用上18岁以上的成人功能。验证地址（需要人脸识别，需要美国IP）：

2个月前

AI资讯日报，1月20日：

2个月前

智谱开源GLM-4.7-Flash 30B总参数，3B激活参数，评分超过Qwen3-30B-A3B和GPT-OSS-20B，这个大小本地刚好能运行。模型：

2个月前

X公开了推荐算法：基于Grok Transformer的推荐系统，推荐系统从"规则+特征工程"转变为"端到端深度学习"。推荐过程核心机制： · 双源候选融合：同时从关注账号（In-Network）和全球内容库（Out-of-Network）获取内容，通过 ML 模型统一排序 · 纯 Transformer 架构：完全摒弃手工特征工程，仅依赖 Grok-based Transformer从用户历史交互序列中学习相关性 · 多目标联合预测：单个模型同时预测 13+ 种用户行为概率（点赞/转发/回复/屏蔽等），通过加权组合得到最终分数完整流程：查询 → 获取候选 → 水合（补充数据）→ 过滤 → 打分 → 排序 → 后处理 Github：

2个月前

阿里AIGC平台呜哩上线目前免费用，图片生成可以使用Qwen Image和即梦，视频生成可以使用Qwen、即梦、可灵（包括2.6和O1），估计用户量大了就没法免费了，可以先薅着。使用地址：

...