Thyme：像o3一样分析图片视觉多模态模型，会分析用户需求，针对复杂问题写代码来辅助解决。例如识别非常小的区域内的文字，会写代码执行放大+裁剪的操作，然后再识别图像解决问题。跟OpenAI o3的操作类似。项目地址： Github：

#Thyme #o3 #视觉多模态模型 #代码辅助 #图像识别

相关新闻

Frank Wang 玉伯

3天前

听了小珺采访谢赛宁的采访播客后，后劲十足。后劲之一是：对 Bitter Lesson（苦涩的教训）有了很不一样的理解。原来的理解是：用精巧的规则去聪明做事，往往不如用通用的算法结合暴力去解决。比如国际象棋败给了深蓝、围棋败给了 AlphaGo、翻译和图像识别等败给了 LLM。我们往往高估了聪明，而低估了笨拙。这就是苦涩的教训。赛宁在播客里表达了一个非常有意思的观点：LLM 也是一种聪明

Crypto_Painter

1周前

基本上跑通了！现在我的 Agent 会每小时自动记录当前的K线形态，然后交给 Embedding 进行向量索引，由于这个多模态模型的图像识别真的很强… 所以目前后台反馈的样本案例与实际行情走的都有一种神似的感觉… 图中K线是2024年11月的某段行情… 最后尤其是在把交易量也纳入进去后，整体吻合度变得更好了。目前市价开了多单，2.6%止盈， 1.2%止损… 当然，如果他发现当前形态

我真的没有拼多多

4个月前

下班后，用v0两小时不到快速糊了一款表情识别器demo 百度最近新开源了一个多模态的模型，我测试了一下它的图像识别能力，非常强大，甚至对于面部表情都能很好的识别。基于此模型，开发了一个表情识别特效网站，看看你能做出多少种表情来吧，欢迎大家试玩！网址在评论区第一条（使用的具体模型：ERNIE 4.5-VL-28B-A3B-Thinking）

Andy Stewart

4个月前

懒猫相册基于AI大模型找相似重复照片太方便了

XiaoPeng

5个月前

类似这种图，识别图上的标签，速度最快的模型是哪个？当然也要比较准确。