科技事件跟踪,实时事件跟踪- 第84页 news.news·换个方式看新闻|AI看新闻、实时追踪事件后续

智能推荐信息源

由 AI 根据您的兴趣偏好筛选

3个月前

one months，380k，want to know the domain？#独立开发者 #buildinpublic

独立创业者如何突破零收入困境，迈向月入1000元· 307 条信息

#独立开发者 #buildinpublic #380k #one months

偶像派作手

3个月前

面对当前的波动，来自Claude 的操作思考。

AI编程工具激战：Claude Code、Gemini Cli崛起· 1256 条信息

#Claude #市场波动 #操作思考

3个月前

另外一个Vibe Coding小技巧：最佳实践。如果不知道某功能怎么开发，就告诉AI按最佳实践来写。比如开发画布时，我不知道怎么描述画笔等功能交互。就告诉 AI，你参考Canva或Figma的最佳实践。哪怕不给参考的产品名，只说用“最佳实践”来写，出来质量也会很高。

AI编程工具激战：Claude Code、Gemini Cli崛起· 1256 条信息

#Vibe Coding #AI #最佳实践 #Canva #Figma

3个月前

macOS 26.1 Beta 4 引入了一个全新的控制 Liquid Glass 效果的开关（iOS 上也有）：默认是「透明」，可以改成「色调」。这是以 One Switch 为例的前后效果。不知道你喜欢哪种，我决定要用开始使用「色调」的效果了。

苹果Liquid Glass：开发者适配陷两难，AI助力AR或成未来· 104 条信息

#MacOS #Liquid Glass #透明效果 #色调 #One Switch

砍砍@标准件厂长

3个月前

iCloud 同步真是坑巨多

iOS 26 Beta 2：流畅优化难抵卡顿发热· 190 条信息

#iCloud #同步问题 #数据丢失 #用户吐槽

3个月前

我所知的 macOS 26 上明显的 UI Bug，在 26.1 Beta 4 上都解决了。比如这个远程连接，之前的版本「共享屏幕」、「连接身份」这两个按钮和下面的分割线是重叠的，现在修复了。果然每个 Point Release 才是真正的正式版。

iOS 26 Beta 2：流畅优化难抵卡顿发热· 190 条信息

#macOS 26.1 Beta 4 #UI Bug修复 #远程连接 #Point Release #积极

吕立青_JimmyLv (🐣, 🐣) 2𐃏25 | building bibigpt.co

3个月前

顺手给火狐浏览器提交了 BibiGPT 视频总结插件，没想到竟然一把就通过了。现在还有人在用火狐吗？我大学的最爱啊，时代的眼泪。

火狐中国突然宣布退出市场，用户数据面临清除危机· 5 条信息

#火狐浏览器 #BibiGPT插件 #视频总结 #大学时代 #怀旧

Tom | ドバイで生成AIやってる人

3个月前

DifyでYouTubeの競合分析ができるリモートMCP作ったけどソースコード欲しい人いますか？欲しい人いれば配布します。こんな感じで検索キーワードの上位動画（サムネイルや再生数、動画の長さなど）とそれぞれの動画の字幕データを取得してくれます。さらに作成したMCPサーバーをClaudeに接続してあげれば、ClaudeからYouTubeを分析することも可能です。このツールが欲しい人は「いいね」と「mcp」ってリプしてみて。 ※僕のフォローもよろしくお願いします！ ※配布用のURLを自動でお送りします。普段からこんな感じでDifyでMCPサーバーをたくさん作っておけばChatGPTやClaudeを強化できるのでおすすめですよ～。良きDifyライフをお過ごしください！

AI编程工具激战：Claude Code、Gemini Cli崛起· 1256 条信息

#Dify #YouTube競合分析 #MCPサーバー #Claude #いいね

Jesse Lau 遁一子

3个月前

其实这个AI大战加密的营销也可以学到东西。不要看随机几个重仓跑到前面的，那个除了运气外啥也学不到倒是可以关注一下gemini为何亏了那么多，把其亏损的教训找出来，避免自己做交易系统时犯上 gemini其实对invalidation condition理解的很好，且每个品种居然做了不同的策略但问题大概是gemini设置的条件有的过于复杂，如BTC现在invalidation（主动平仓）策略为“进场后超过1小时出现新低，并且没有出现RSI多头背离”（图三）这个gemini凭借用户输入数据应该目前没有办法准确捕捉，从而会造成频繁止损

AI交易比赛：DeepSeek V3领先，GPT-5惨遭亏损· 98 条信息

#AI大战 #加密营销 #Gemini亏损 #交易系统 #止损策略

3个月前

以前很排斥电车，但是刚刚体验了一会特斯拉Cyber Truck全自动驾驶，座起来太爽了。感觉相当于请了一个几十年驾龄的老司机。。。

特斯拉无人驾驶：交付突破与监管挑战· 92 条信息

#特斯拉CyberTruck #全自动驾驶 #驾驶体验 #老司机 #积极

3个月前

楊蘭蘭神秘消失！豪宅清空；亞馬遜雲突發故障！全球多平台陷癱瘓【新聞速遞】

澳洲华裔女子杨兰兰隐形富豪身份引发热议· 102 条信息

#楊蘭蘭 #亞馬遜雲故障 #全球平台癱瘓 #豪宅清空 #新聞速遞

3个月前

看了这个deepseek的ocr，感觉就是卧槽，还能这样？让我想到了一个英文单词叫Photographic memory，以前的ocr是把图片上的东西转成文本，然后让程序或者大模型就直接读了，现在等于读图就读出了文字的意思，把文档当成一个完整的视觉对象来理解，他已经不是一目10行了，不是一目就一页，牛逼！

深度学习模型升级引发AI能力大跃进，行业迎新变革· 143 条信息

#DeepSeek #OCR #Photographic memory #视觉对象理解 #技术赞叹

3个月前

AI资讯日报，10月20日：

AI技术引发伦理争议，专家呼吁加强监管· 22 条信息

#AI #资讯 #10月20日

3个月前

DeepSeek刚发的OCR模型有点小火，一方面是突出的性能，号称压缩10倍还有97%准确率，另一方面关于用分辨率来模拟遗忘机制的假想，恰巧AK在最近的访谈中说人的遗忘是一个feature而不是bug。 DeepSeek OCR模型很有意思的一点是提供了好多个“分辨率”选项，并且看起来用的token很少。最低的512 x 512一张图只需要64个token，稍大一点的1024 x 1024是256个token。复杂版面还组合使用多种分辨率，首先是整张图用i个1024 x 1024，此外重点区域可能用多个640 x 640。不少人惊呼太牛逼了，一张图只需要几十个token。其实至少在学术界，这样的视觉编码效率并不算很大的突破。目前看不到技术细节，但DeepSeek OCR的搞法，怎么看怎么像去年字节的那篇best paper的思路（还记得去年字节有个实习生搞破坏被公司索赔800万吗，他就是paper的作者）。那篇paper是去年顶会NeurIPS的best paper，提出的Visual Autoregressive Modeling(VAR)方法就是采用"粗到细"的多尺度预测,逐步从低分辨率扩展到高分辨率。另外，去年豆包团队也有一篇paper，把512 x 512的图片也是编码到了64个token，和DeepSeek OCR一模一样。那篇paper还能把256 x 256的图片编码到更小的32个token。DeepSeek OCR模型毕竟是要做文字识别而不是场景理解的，可能因此舍去了不太实用的256 x 256尺寸。很有可能DeepSeek OCR是受到了这两篇paper很大的启发，把它进一步工程化产品化了。从过往的记录看，DeepSeek团队特别把其它实验室的研究成果进一步做扎实，产品化。至于用分辨率来模拟遗忘机制的假想，确实是个有点意思的想法，但也感觉有点不太对。越来越模糊的分辨率，感觉模拟的更像是越来越高度的近视，这是一种很好的遗忘机制吗？另外，人脑的遗忘机制可能适合人脑，未必适合数字的第二大脑。人脑要遗忘也可能是因为一个人的脑容量毕竟有限，数字系统容量可以一直扩，是不是一定要遗忘呢。这些都是问题。这得多想想。

深度学习模型升级引发AI能力大跃进，行业迎新变革· 143 条信息

#DeepSeek OCR #分辨率模拟遗忘 #多尺度预测 #字节跳动VAR #工程化产品化

3个月前

[开源模型] DeepSeek-OCR: DeepSeek 最新开源的 VLM，参数规模 3B，核心目标是从 LLM 的视角探索视觉编码器的作用，并推动视觉-文本压缩技术的边界。该模型被命名为“Contexts Optical Compression”，目的是高效处理图像中的文本提取和文档结构化任务，适用于 OCR 和文档数字化场景。关键创新与架构 DeepSeek-OCR 的设计强调 LLM 中心化的视觉处理创新： · 视觉-文本压缩机制：通过动态分辨率处理（如 Gundam 模式，将图像裁剪为多个 640×640 块加一个 1024×1024 中心块），将视觉输入压缩为少量 token（例如 Base 模式下 256 个视觉 token），减少计算开销的同时保留高保真度。这不同于传统 VLM 的固定分辨率编码，更注重与 LLM 的无缝融合。 · 多模态提示支持：引入 grounding 提示（如“<|grounding|>”），允许模型针对性执行任务，如“Convert the document to markdown”用于结构化输出，或“Free OCR”用于纯文本提取。 · 训练策略：模型借鉴了 Vary 和 GOT-OCR2.0 等开源项目，聚焦于文档、图表和弱视觉信号的处理，支持 32 种语言的 OCR（包括中文和英文）。这些创新使 DeepSeek-OCR 在处理复杂布局（如表格、图表）时表现出色，避免了传统 OCR 工具（如 Tesseract）的刚性限制。性能表现在基准测试中，DeepSeek-OCR 展现出高效性和准确性： · OCR 准确率：在 OCRBench 等数据集上，超越部分开源 VLM（如 Qwen-VL），尤其在手写体和低质量图像上表现稳健。 · 推理速度：使用 vLLM 引擎，在 A100-40G GPU 上处理 PDF 可达约 2500 token/s，支持并发批量评估。 · 分辨率适应：支持 Tiny（512×512）到 Large（1280×1280）模式，平衡精度与效率；在 OmniDocBench 等文档基准中，文档到 Markdown 转换的 F1 分数高于基线模型 5-10%。它在资源受限环境下（如单 GPU）实现 SOTA（最先进）性能，但对极高分辨率图像的泛化仍需优化。使用与应用部署简单，支持 Hugging Face Transformers 和 vLLM： · 环境准备：Python 3.12+、CUDA 11.8、Torch 2.6.0，安装 flash-attn 和 vLLM。 · 应用场景：文档数字化（如 PDF 转 Markdown）、发票提取、学术论文图表解析。仓库提供可视化示例，展示从杂乱图像到结构化输出的效果。开源模型

智谱直播发布全球最佳视觉模型GLM-4.5V，挑战AI视觉领域极限· 21 条信息

#开源模型 #DeepSeek-OCR #VLM #视觉-文本压缩 #文档数字化

𝙩𝙮≃𝙛{𝕩}^A𝕀²·ℙarad𝕚g𝕞

3个月前

interesting 我还以为是个OCR光学字符识别模型，结果貌似打通了多模态vLLM。

智谱直播发布全球最佳视觉模型GLM-4.5V，挑战AI视觉领域极限· 21 条信息

#OCR #多模态vLLM #模型

3个月前

等不及 MLX 版的 DeepSeek-OCR了，折腾了会，把它在 Mac 上跑起来 DeepSeek-OCR 不仅是 OCR 模型，还有视觉理解能力我试了 resize 512、640、padding 1024，Mac 走 CPU 还是 640 分辨率效果速度均衡些

深度学习模型升级引发AI能力大跃进，行业迎新变革· 143 条信息

#DeepSeek-OCR #Mac #CPU #视觉理解 #OCR模型

3个月前

DeepSeek 发布了一个新型 OCR文档理解模型：DeepSeek-OCR 它不仅解析图像文档达到了一流水平还探索出了一个大胆的想法👇🏻 大语言模型（比如 GPT）在处理长文章时，消耗的计算量会爆炸性增长。但如果把文字“画成图片”，模型只需要很少的“视觉 token”就能理解同样内容。这样做相当于给AI一个**“视觉记忆压缩”机制**。也就是：他们先把长文本压缩生成一张图片，用视觉模型将其压缩成只需少量“视觉 token”，然后再用语言模型从这些 token 解码出文字。换句话说，他们让模型“看图识字”来代替“逐字阅读”，把文字信息压缩进图像空间，从而实现大幅度的 token 减少。比如： 1000 个字的文章，压缩成图像只需用 100 个视觉 token（压缩 10×）表示，模型解压时候仍能还原出 97% 的原文。这就展示了一种**“视觉压缩记忆”**的概念： -未来的AI可以把旧记忆变成图片保存； -用更少的计算处理“几百页”的上下文； -这可能是解决“LLM记忆上限”的关键技术。他们将视觉压缩比拟为人类的“遗忘曲线”：也就是说：近期的上下文保留高分辨率图像（高保真信息）；较旧的上下文可被压缩为模糊图片（低信息密度）；这样既节约计算资源，又模拟了人类“遗忘”的自然过程。

深度学习模型升级引发AI能力大跃进，行业迎新变革· 143 条信息

#DeepSeek-OCR #OCR文档理解 #视觉token #视觉记忆压缩 #LLM记忆上限

3个月前

Codex 写了一大堆测试脚本之后，发现不用 private api 实现不了，及时止损

币圈“1011”六倍崩盘：高杠杆爆仓潮，谁在裸泳？· 6476 条信息

#Codex #测试脚本 #private API #及时止损 #消极

3个月前

DeepSeek OCR 论文里的想法太有意思了。用光学压缩模拟人类记忆遗忘机制，还有点 callback AK 的会遗忘的智能了。。。人类记忆有个特点：一小时前的事，清清楚楚一周前的事，开始模糊一年前的事，几乎忘光视觉感知也一样： 10cm的东西看得清楚 20m的东西几乎看不清 DeepSeek想到一个绝妙类比：用分辨率来模拟这种衰减他们设计了对应关系：近期对话 → Gundam模式（800+ tokens）一周前 → Base模式（256 tokens）久远记忆 → Tiny模式（64 tokens）这样既保留了历史信息，又控制了token数量。远期记忆自然"淡化"，就像人类遗忘一样。如果真的能做到，就能实现"理论上无限的context window"。因为你不需要保持所有信息的高保真度，只需要让信息随时间衰减。遗忘本身是一种优化策略。人类会遗忘，不是因为大脑容量不够，而是因为遗忘让我们更高效。 DeepSeek把这个生物学直觉，转化成了工程实现。这条路如果走通了，可能会改变我们对长上下文问题的理解：不是无限扩大context window，而是让信息自然衰减。

深度学习模型升级引发AI能力大跃进，行业迎新变革· 143 条信息

#DeepSeek OCR #光学压缩 #记忆遗忘机制 #长上下文 #信息衰减

... ...