跳转到主要内容

视觉与图片理解

Myrm 支持在 WebUI 对话、IM 渠道和桌面端上传图片。当主模型不支持视觉时,系统会自动通过 Vision Fallback(视觉备选模型) 将图片转为文字描述,再交给主模型继续对话——无需手动切换模型。

工作原理

  1. 在 WebUI 中粘贴、拖拽或上传图片(或在支持的渠道发送图片)。
  2. Myrm 检测当前主模型是否支持视觉(supports_vision)。
  3. 支持 — 图片作为原生多模态内容直接发给主模型。
  4. 不支持 — 界面显示 「正在分析图片…」,调用你配置的 Vision Fallback 模型生成描述,替换图片块后继续用主模型回答。
视频走相同管线:支持原生视频的模型直传;否则通过帧提取 + 视觉分析降级为文字描述。

配置步骤

  1. 打开 设置 → 模型
  2. 选择 主模型(任意提供商均可)。
  3. 设置 Vision Fallback 为支持视觉的模型(如 GPT-4o、Gemini Flash、Qwen-VL)。
  4. 可选:在模型选择器中查看能力图标——带眼睛图标的模型原生支持视觉。
Myrm 通过 LiteLLM 与 models.dev 自动探测模型能力;也可在模型卡片中手动覆盖。

典型场景

  • 截图问答 — 粘贴截图,询问问题或下一步操作。
  • 标注编辑器 — 发送前在图片上画圈、箭头,引导 Agent 关注特定区域。
  • 文本主模型 + 视觉备选 — 主模型选低成本文本模型,图片由 Vision Fallback 处理。
  • 渠道图片 — Telegram、Discord、iMessage 等渠道的图片进入同一套管线。
  • PDF 与文档 — 扫描版或图片型 PDF 在文本稀疏时可走视觉分析。

状态与缓存

Vision Fallback 运行期间,聊天区显示 正在分析图片(或 正在分析视频)提示,完成后自动消失。 同一会话内内容相同的图片会按哈希缓存,重复发送不会重复调用视觉 API。

使用建议

  • 若频繁发送截图,可为 Vision Fallback 配置更快、更省的模型。
  • 大图会在调用视觉模型前自动压缩。
  • 分析失败时会给出明确错误提示,不影响消息其余部分的正常处理。

相关文档