视觉与图片理解
Myrm 支持在 WebUI 对话、IM 渠道和桌面端上传图片。当主模型不支持视觉时,系统会自动通过 Vision Fallback(视觉备选模型) 将图片转为文字描述,再交给主模型继续对话——无需手动切换模型。工作原理
- 在 WebUI 中粘贴、拖拽或上传图片(或在支持的渠道发送图片)。
- Myrm 检测当前主模型是否支持视觉(
supports_vision)。 - 支持 — 图片作为原生多模态内容直接发给主模型。
- 不支持 — 界面显示 「正在分析图片…」,调用你配置的 Vision Fallback 模型生成描述,替换图片块后继续用主模型回答。
配置步骤
- 打开 设置 → 模型。
- 选择 主模型(任意提供商均可)。
- 设置 Vision Fallback 为支持视觉的模型(如 GPT-4o、Gemini Flash、Qwen-VL)。
- 可选:在模型选择器中查看能力图标——带眼睛图标的模型原生支持视觉。
典型场景
- 截图问答 — 粘贴截图,询问问题或下一步操作。
- 标注编辑器 — 发送前在图片上画圈、箭头,引导 Agent 关注特定区域。
- 文本主模型 + 视觉备选 — 主模型选低成本文本模型,图片由 Vision Fallback 处理。
- 渠道图片 — Telegram、Discord、iMessage 等渠道的图片进入同一套管线。
- PDF 与文档 — 扫描版或图片型 PDF 在文本稀疏时可走视觉分析。
状态与缓存
Vision Fallback 运行期间,聊天区显示 正在分析图片(或 正在分析视频)提示,完成后自动消失。 同一会话内内容相同的图片会按哈希缓存,重复发送不会重复调用视觉 API。使用建议
- 若频繁发送截图,可为 Vision Fallback 配置更快、更省的模型。
- 大图会在调用视觉模型前自动压缩。
- 分析失败时会给出明确错误提示,不影响消息其余部分的正常处理。