Gorden Sun 0 关注者 关注 2个月前 PyVision:LLM生成工具解决视觉问题 在视觉推理领域,现有多模态模型的方法很大程度上受限于预定义的工作流和静态工具集。PyVision让MLLM能够自主生成、执行和优化基于Python的工具,从而开发出针对当前任务的视觉工具,然后再调用工具解决问题。在 V* 上使 GPT-4.1 的性能提升了 7.8%,在 VLMsAreBlind-mini 上使 Claude-4.0-Sonnet 的 前往原网页查看