时政
财经
科技
虚拟货币
其他
登录
智能推荐信息源
李老师不是你老师
关注
德潤傳媒
关注
悉尼閑人
关注
联合早报 Lianhe Zaobao
关注
DW 中文- 德国之声
关注
ABC中文
关注
Gancheng Wang
关注
Ignatius Lee
关注
《议报》
关注
网易新闻-红星新闻
关注
由 AI 根据您的兴趣偏好筛选
事件跟踪
热点事件
最新话题
实时新闻
zhugezifang
2个月前
one months,380k,want to know the domain?#独立开发者 #buildinpublic
独立创业者如何突破零收入困境,迈向月入1000元· 307 条信息
#独立开发者
#buildinpublic
#380k
#one months
分享
评论 0
0
偶像派作手
2个月前
面对当前的波动,来自Claude 的操作思考。
AI编程工具激战:Claude Code、Gemini Cli崛起· 1256 条信息
#Claude
#市场波动
#操作思考
分享
评论 0
0
向阳乔木
2个月前
另外一个Vibe Coding小技巧:最佳实践。 如果不知道某功能怎么开发,就告诉AI按最佳实践来写。 比如开发画布时,我不知道怎么描述画笔等功能交互。 就告诉 AI,你参考Canva或Figma的最佳实践。 哪怕不给参考的产品名,只说用“最佳实践”来写,出来质量也会很高。
AI编程工具激战:Claude Code、Gemini Cli崛起· 1256 条信息
#Vibe Coding
#AI
#最佳实践
#Canva
#Figma
分享
评论 0
0
图拉鼎
2个月前
macOS 26.1 Beta 4 引入了一个全新的控制 Liquid Glass 效果的开关(iOS 上也有):默认是「透明」,可以改成「色调」。 这是以 One Switch 为例的前后效果。 不知道你喜欢哪种,我决定要用开始使用「色调」的效果了。
苹果Liquid Glass:开发者适配陷两难,AI助力AR或成未来· 104 条信息
#MacOS
#Liquid Glass
#透明效果
#色调
#One Switch
分享
评论 0
0
砍砍@标准件厂长
2个月前
iCloud 同步真是坑巨多
iOS 26 Beta 2:流畅优化难抵卡顿发热· 190 条信息
#iCloud
#同步问题
#数据丢失
#用户吐槽
分享
评论 0
0
图拉鼎
2个月前
我所知的 macOS 26 上明显的 UI Bug,在 26.1 Beta 4 上都解决了。比如这个远程连接,之前的版本「共享屏幕」、「连接身份」这两个按钮和下面的分割线是重叠的,现在修复了。果然每个 Point Release 才是真正的正式版。
iOS 26 Beta 2:流畅优化难抵卡顿发热· 190 条信息
#macOS 26.1 Beta 4
#UI Bug修复
#远程连接
#Point Release
#积极
分享
评论 0
0
吕立青_JimmyLv (🐣, 🐣) 2𐃏25 | building bibigpt.co
2个月前
顺手给火狐浏览器提交了 BibiGPT 视频总结插件, 没想到竟然一把就通过了。 现在还有人在用火狐吗? 我大学的最爱啊, 时代的眼泪。
火狐中国突然宣布退出市场,用户数据面临清除危机· 5 条信息
#火狐浏览器
#BibiGPT插件
#视频总结
#大学时代
#怀旧
分享
评论 0
0
Tom | ドバイで生成AIやってる人
2个月前
DifyでYouTubeの競合分析ができるリモートMCP作ったけどソースコード欲しい人いますか?欲しい人いれば配布します。こんな感じで検索キーワードの上位動画(サムネイルや再生数、動画の長さなど)とそれぞれの動画の字幕データを取得してくれます。 さらに作成したMCPサーバーをClaudeに接続してあげれば、ClaudeからYouTubeを分析することも可能です。 このツールが欲しい人は「いいね」と「mcp」ってリプしてみて。 ※僕のフォローもよろしくお願いします! ※配布用のURLを自動でお送りします。 普段からこんな感じでDifyでMCPサーバーをたくさん作っておけばChatGPTやClaudeを強化できるのでおすすめですよ~。良きDifyライフをお過ごしください!
AI编程工具激战:Claude Code、Gemini Cli崛起· 1256 条信息
#Dify
#YouTube競合分析
#MCPサーバー
#Claude
#いいね
分享
评论 0
0
Jesse Lau 遁一子
2个月前
其实这个AI大战加密的营销也可以学到东西。不要看随机几个重仓跑到前面的,那个除了运气外啥也学不到 倒是可以关注一下gemini为何亏了那么多,把其亏损的教训找出来,避免自己做交易系统时犯上 gemini其实对invalidation condition理解的很好,且每个品种居然做了不同的策略 但问题大概是gemini设置的条件有的过于复杂,如BTC现在invalidation(主动平仓)策略为“进场后超过1小时出现新低,并且没有出现RSI多头背离”(图三) 这个gemini凭借用户输入数据应该目前没有办法准确捕捉,从而会造成频繁止损
AI交易比赛:DeepSeek V3领先,GPT-5惨遭亏损· 98 条信息
#AI大战
#加密营销
#Gemini亏损
#交易系统
#止损策略
分享
评论 0
0
Inty News
2个月前
以前很排斥电车,但是刚刚体验了一会特斯拉Cyber Truck全自动驾驶,座起来太爽了。 感觉相当于请了一个几十年驾龄的老司机。。。
特斯拉无人驾驶:交付突破与监管挑战· 92 条信息
#特斯拉CyberTruck
#全自动驾驶
#驾驶体验
#老司机
#积极
分享
评论 0
0
德潤傳媒
2个月前
楊蘭蘭神秘消失!豪宅清空;亞馬遜雲突發故障!全球多平台陷癱瘓 【新聞速遞】
澳洲华裔女子杨兰兰隐形富豪身份引发热议· 102 条信息
#楊蘭蘭
#亞馬遜雲故障
#全球平台癱瘓
#豪宅清空
#新聞速遞
分享
评论 0
0
biantaishabi5
2个月前
看了这个deepseek的ocr,感觉就是卧槽,还能这样?让我想到了一个英文单词叫Photographic memory,以前的ocr是把图片上的东西转成文本,然后让程序或者大模型就直接读了,现在等于读图就读出了文字的意思,把文档当成一个完整的视觉对象来理解,他已经不是一目10行了,不是一目就一页,牛逼!
深度学习模型升级引发AI能力大跃进,行业迎新变革· 143 条信息
#DeepSeek
#OCR
#Photographic memory
#视觉对象理解
#技术赞叹
分享
评论 0
0
Gorden Sun
2个月前
AI资讯日报,10月20日:
AI技术引发伦理争议,专家呼吁加强监管· 22 条信息
#AI
#资讯
#10月20日
分享
评论 0
0
WY
2个月前
DeepSeek刚发的OCR模型有点小火,一方面是突出的性能,号称压缩10倍还有97%准确率,另一方面关于用分辨率来模拟遗忘机制的假想,恰巧AK在最近的访谈中说人的遗忘是一个feature而不是bug。 DeepSeek OCR模型很有意思的一点是提供了好多个“分辨率”选项,并且看起来用的token很少。最低的512 x 512一张图只需要64个token,稍大一点的1024 x 1024是256个token。复杂版面还组合使用多种分辨率,首先是整张图用i个1024 x 1024,此外重点区域可能用多个640 x 640。 不少人惊呼太牛逼了,一张图只需要几十个token。其实至少在学术界,这样的视觉编码效率并不算很大的突破。 目前看不到技术细节,但DeepSeek OCR的搞法,怎么看怎么像去年字节的那篇best paper的思路(还记得去年字节有个实习生搞破坏被公司索赔800万吗,他就是paper的作者)。那篇paper是去年顶会NeurIPS的best paper,提出的Visual Autoregressive Modeling(VAR)方法就是采用"粗到细"的多尺度预测,逐步从低分辨率扩展到高分辨率。 另外,去年豆包团队也有一篇paper,把512 x 512的图片也是编码到了64个token,和DeepSeek OCR一模一样。那篇paper还能把256 x 256的图片编码到更小的32个token。DeepSeek OCR模型毕竟是要做文字识别而不是场景理解的,可能因此舍去了不太实用的256 x 256尺寸。 很有可能DeepSeek OCR是受到了这两篇paper很大的启发,把它进一步工程化产品化了。从过往的记录看,DeepSeek团队特别把其它实验室的研究成果进一步做扎实,产品化。 至于用分辨率来模拟遗忘机制的假想,确实是个有点意思的想法,但也感觉有点不太对。越来越模糊的分辨率,感觉模拟的更像是越来越高度的近视,这是一种很好的遗忘机制吗? 另外,人脑的遗忘机制可能适合人脑,未必适合数字的第二大脑。人脑要遗忘也可能是因为一个人的脑容量毕竟有限,数字系统容量可以一直扩,是不是一定要遗忘呢。 这些都是问题。这得多想想。
深度学习模型升级引发AI能力大跃进,行业迎新变革· 143 条信息
#DeepSeek OCR
#分辨率模拟遗忘
#多尺度预测
#字节跳动VAR
#工程化产品化
分享
评论 0
0
meng shao
2个月前
[开源模型] DeepSeek-OCR: DeepSeek 最新开源的 VLM,参数规模 3B,核心目标是从 LLM 的视角探索视觉编码器的作用,并推动视觉-文本压缩技术的边界。该模型被命名为“Contexts Optical Compression”,目的是高效处理图像中的文本提取和文档结构化任务,适用于 OCR 和文档数字化场景。 关键创新与架构 DeepSeek-OCR 的设计强调 LLM 中心化的视觉处理创新: · 视觉-文本压缩机制:通过动态分辨率处理(如 Gundam 模式,将图像裁剪为多个 640×640 块加一个 1024×1024 中心块),将视觉输入压缩为少量 token(例如 Base 模式下 256 个视觉 token),减少计算开销的同时保留高保真度。这不同于传统 VLM 的固定分辨率编码,更注重与 LLM 的无缝融合。 · 多模态提示支持:引入 grounding 提示(如“<|grounding|>”),允许模型针对性执行任务,如“Convert the document to markdown”用于结构化输出,或“Free OCR”用于纯文本提取。 · 训练策略:模型借鉴了 Vary 和 GOT-OCR2.0 等开源项目,聚焦于文档、图表和弱视觉信号的处理,支持 32 种语言的 OCR(包括中文和英文)。 这些创新使 DeepSeek-OCR 在处理复杂布局(如表格、图表)时表现出色,避免了传统 OCR 工具(如 Tesseract)的刚性限制。 性能表现 在基准测试中,DeepSeek-OCR 展现出高效性和准确性: · OCR 准确率:在 OCRBench 等数据集上,超越部分开源 VLM(如 Qwen-VL),尤其在手写体和低质量图像上表现稳健。 · 推理速度:使用 vLLM 引擎,在 A100-40G GPU 上处理 PDF 可达约 2500 token/s,支持并发批量评估。 · 分辨率适应:支持 Tiny(512×512)到 Large(1280×1280)模式,平衡精度与效率;在 OmniDocBench 等文档基准中,文档到 Markdown 转换的 F1 分数高于基线模型 5-10%。 它在资源受限环境下(如单 GPU)实现 SOTA(最先进)性能,但对极高分辨率图像的泛化仍需优化。 使用与应用 部署简单,支持 Hugging Face Transformers 和 vLLM: · 环境准备:Python 3.12+、CUDA 11.8、Torch 2.6.0,安装 flash-attn 和 vLLM。 · 应用场景:文档数字化(如 PDF 转 Markdown)、发票提取、学术论文图表解析。仓库提供可视化示例,展示从杂乱图像到结构化输出的效果。 开源模型
智谱直播发布全球最佳视觉模型GLM-4.5V,挑战AI视觉领域极限· 21 条信息
#开源模型
#DeepSeek-OCR
#VLM
#视觉-文本压缩
#文档数字化
分享
评论 0
0
𝙩𝙮≃𝙛{𝕩}^A𝕀²·ℙarad𝕚g𝕞
2个月前
interesting 我还以为是个OCR光学字符识别模型,结果貌似打通了多模态vLLM。
智谱直播发布全球最佳视觉模型GLM-4.5V,挑战AI视觉领域极限· 21 条信息
#OCR
#多模态vLLM
#模型
分享
评论 0
0
nicekate
2个月前
等不及 MLX 版的 DeepSeek-OCR了,折腾了会,把它在 Mac 上跑起来 DeepSeek-OCR 不仅是 OCR 模型,还有视觉理解能力 我试了 resize 512、640、padding 1024,Mac 走 CPU 还是 640 分辨率效果速度均衡些
深度学习模型升级引发AI能力大跃进,行业迎新变革· 143 条信息
#DeepSeek-OCR
#Mac
#CPU
#视觉理解
#OCR模型
分享
评论 0
0
小互
2个月前
DeepSeek 发布了一个新型 OCR文档理解模型:DeepSeek-OCR 它不仅解析图像文档达到了一流水平 还探索出了一个大胆的想法👇🏻 大语言模型(比如 GPT)在处理长文章时,消耗的计算量会爆炸性增长。 但如果把文字“画成图片”,模型只需要很少的“视觉 token”就能理解同样内容。 这样做相当于给AI一个**“视觉记忆压缩”机制**。 也就是: 他们先把长文本压缩生成一张图片,用视觉模型将其压缩成只需少量“视觉 token”,然后再用语言模型从这些 token 解码出文字。 换句话说,他们让模型“看图识字”来代替“逐字阅读”,把文字信息压缩进图像空间,从而实现大幅度的 token 减少。 比如: 1000 个字的文章,压缩成图像只需用 100 个视觉 token(压缩 10×)表示,模型解压时候仍能还原出 97% 的原文。 这就展示了一种**“视觉压缩记忆”**的概念: -未来的AI可以把旧记忆变成图片保存; -用更少的计算处理“几百页”的上下文; -这可能是解决“LLM记忆上限”的关键技术。 他们将视觉压缩比拟为人类的“遗忘曲线”: 也就是说: 近期的上下文保留高分辨率图像(高保真信息); 较旧的上下文可被压缩为模糊图片(低信息密度); 这样既节约计算资源,又模拟了人类“遗忘”的自然过程。
深度学习模型升级引发AI能力大跃进,行业迎新变革· 143 条信息
#DeepSeek-OCR
#OCR文档理解
#视觉token
#视觉记忆压缩
#LLM记忆上限
分享
评论 0
0
Lex Tang
2个月前
Codex 写了一大堆测试脚本之后,发现不用 private api 实现不了,及时止损
币圈“1011”六倍崩盘:高杠杆爆仓潮,谁在裸泳?· 6476 条信息
#Codex
#测试脚本
#private API
#及时止损
#消极
分享
评论 0
0
orange.ai
2个月前
DeepSeek OCR 论文里的想法太有意思了。 用光学压缩模拟人类记忆遗忘机制,还有点 callback AK 的会遗忘的智能了。。。 人类记忆有个特点: 一小时前的事,清清楚楚 一周前的事,开始模糊 一年前的事,几乎忘光 视觉感知也一样: 10cm的东西看得清楚 20m的东西几乎看不清 DeepSeek想到一个绝妙类比: 用分辨率来模拟这种衰减 他们设计了对应关系: 近期对话 → Gundam模式(800+ tokens) 一周前 → Base模式(256 tokens) 久远记忆 → Tiny模式(64 tokens) 这样既保留了历史信息,又控制了token数量。 远期记忆自然"淡化",就像人类遗忘一样。 如果真的能做到,就能实现"理论上无限的context window"。 因为你不需要保持所有信息的高保真度,只需要让信息随时间衰减。 遗忘本身是一种优化策略。 人类会遗忘,不是因为大脑容量不够,而是因为遗忘让我们更高效。 DeepSeek把这个生物学直觉,转化成了工程实现。 这条路如果走通了,可能会改变我们对长上下文问题的理解: 不是无限扩大context window,而是让信息自然衰减。
深度学习模型升级引发AI能力大跃进,行业迎新变革· 143 条信息
#DeepSeek OCR
#光学压缩
#记忆遗忘机制
#长上下文
#信息衰减
分享
评论 0
0
上一页
1
...
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
...
248
下一页
AI 实时热榜 (24小时)
智能算法加权排行
个人主页
通知
我的投稿
我的关注
我的拉黑
我的评论
我的点赞