#图像识别

Frank Wang 玉伯

1周前

听了小珺采访谢赛宁的采访播客后，后劲十足。后劲之一是：对 Bitter Lesson（苦涩的教训）有了很不一样的理解。原来的理解是：用精巧的规则去聪明做事，往往不如用通用的算法结合暴力去解决。比如国际象棋败给了深蓝、围棋败给了 AlphaGo、翻译和图像识别等败给了 LLM。我们往往高估了聪明，而低估了笨拙。这就是苦涩的教训。赛宁在播客里表达了一个非常有意思的观点：LLM 也是一种聪明、一种取巧，用很短暂的互联网积累的并不客观的各种语言数据，去尝试达成 AGI，这和研究围棋里的某种流派去解题，或许是一样的。也是一种聪明，而不是笨拙。这样得来的智能，会只是一小部分，终将非遗。想起《孙子兵法》里的大智若愚：如果要不败，那么最重要的是：要么不战，要么就带十倍兵力去打，以多胜少。期待以少胜多，就是迟早是一种苦涩的教训。创业也如此。最容易获得苦涩教训的，就是聪明。比如假设大厂不会做，或假设其他公司看不到。这都会是骗自己。不聪明，找到笨拙的法子，才是创业有机会获得成功的关键。 Bitter Lesson 是好事。聪明或许能优秀，但经历苦涩并理解苦涩，更有机会通往卓越。

#Bitter Lesson #谢赛宁 #播客 #国际象棋 #深蓝 #围棋 #AlphaGo #LLM #翻译 #图像识别

2周前

基本上跑通了！现在我的 Agent 会每小时自动记录当前的K线形态，然后交给 Embedding 进行向量索引，由于这个多模态模型的图像识别真的很强… 所以目前后台反馈的样本案例与实际行情走的都有一种神似的感觉… 图中K线是2024年11月的某段行情… 最后尤其是在把交易量也纳入进去后，整体吻合度变得更好了。目前市价开了多单，2.6%止盈， 1.2%止损… 当然，如果他发现当前形态看上去要跌了，还会直接平多做空，反之亦然。

#股票K线 #图像识别 #交易策略 #2024年行情 #多模态模型

我真的没有拼多多

4个月前

下班后，用v0两小时不到快速糊了一款表情识别器demo 百度最近新开源了一个多模态的模型，我测试了一下它的图像识别能力，非常强大，甚至对于面部表情都能很好的识别。基于此模型，开发了一个表情识别特效网站，看看你能做出多少种表情来吧，欢迎大家试玩！网址在评论区第一条（使用的具体模型：ERNIE 4.5-VL-28B-A3B-Thinking）

#表情识别 #多模态模型 #ERNIE 4.5-VL-28B-A3B-Thinking #图像识别 #特效网站

4个月前

懒猫相册基于AI大模型找相似重复照片太方便了

懒猫家族新成员亮相，AI算力舱引发热议！· 143 条信息

#AI大模型 #懒猫相册 #重复照片 #图像识别 #效率工具

5个月前

类似这种图，识别图上的标签，速度最快的模型是哪个？当然也要比较准确。

#图像识别 #模型速度 #模型准确率 #技术选择 #AI模型

7个月前

这个有点厉害的，只要点击照片，然后跟手机说“删掉塑料袋”。它就真的只把塑料袋删掉了……塑料袋里面装的东西还飘在空中…… 识别的过于精准了。 Google Pixel 10/Pro/Fold Impressions: Magnets!

#Google Pixel 10 #图像识别 #AI #塑料袋 #精准

7个月前

Thyme：像o3一样分析图片视觉多模态模型，会分析用户需求，针对复杂问题写代码来辅助解决。例如识别非常小的区域内的文字，会写代码执行放大+裁剪的操作，然后再识别图像解决问题。跟OpenAI o3的操作类似。项目地址： Github：

#Thyme #o3 #视觉多模态模型 #代码辅助 #图像识别

Dr.Hash“Wesley”

9个月前

这个图的背景音是什么？

#图像识别 #背景音分析 #音频技术

karminski-牙医

10个月前

有人已经开始尝试把大模型装到玩具上了哈哈哈看到个博主Complex-Indication使用树莓派 Zero 2 的摄像头采集图像，然后使用wifi上传到电脑，电脑使用 SmolVLM 来识别图像，再将控制命令传回去进行控制。不过刚开始完全不能运行，不过他用200张图微调了下模型，挂了个LoRA后，机器人就能走了！他使用的 prompt 是这样的（我翻译成了中文）：根据图像选择以下一项行动：前进，向左，向右，后退。若视野被障碍物阻挡，则选择后退。若左侧有障碍物，则选择向右。若右侧有障碍物，则选择向左。若没有障碍物，则选择前进。根据图像选择以下一项行动：前进，向左，向右，后退。若视野被障碍物阻挡，则选择后退。若左侧有障碍物，则选择向右。若右侧有障碍物，则选择向左。若没有障碍物，则选择前进。

#大模型 #玩具应用 #树莓派 #图像识别 #SmolVLM #微调模型 #机器人控制 #LoRA #机器学习