视觉与图片理解

Myrm 支持在 WebUI 对话、IM 渠道和桌面端上传图片。当主模型不支持视觉时，系统会自动通过 Vision Fallback（视觉备选模型） 将图片转为文字描述，再交给主模型继续对话——无需手动切换模型。

工作原理

在 WebUI 中粘贴、拖拽或上传图片（或在支持的渠道发送图片）。
Myrm 检测当前主模型是否支持视觉（supports_vision）。
支持 — 图片作为原生多模态内容直接发给主模型。
不支持 — 界面显示 「正在分析图片…」，调用你配置的 Vision Fallback 模型生成描述，替换图片块后继续用主模型回答。

视频走相同管线：支持原生视频的模型直传；否则通过帧提取 + 视觉分析降级为文字描述。

配置步骤

打开 设置 → 模型。
选择 主模型（任意提供商均可）。
设置 Vision Fallback 为支持视觉的模型（如 GPT-4o、Gemini Flash、Qwen-VL）。
可选：在模型选择器中查看能力图标——带眼睛图标的模型原生支持视觉。

Myrm 通过 LiteLLM 与 models.dev 自动探测模型能力；也可在模型卡片中手动覆盖。

典型场景

截图问答 — 粘贴截图，询问问题或下一步操作。
标注编辑器 — 发送前在图片上画圈、箭头，引导 Agent 关注特定区域。
文本主模型 + 视觉备选 — 主模型选低成本文本模型，图片由 Vision Fallback 处理。
渠道图片 — Telegram、Discord、iMessage 等渠道的图片进入同一套管线。
PDF 与文档 — 扫描版或图片型 PDF 在文本稀疏时可走视觉分析。

状态与缓存

Vision Fallback 运行期间，聊天区显示 正在分析图片（或 正在分析视频）提示，完成后自动消失。同一会话内内容相同的图片会按哈希缓存，重复发送不会重复调用视觉 API。

使用建议

若频繁发送截图，可为 Vision Fallback 配置更快、更省的模型。
大图会在调用视觉模型前自动压缩。
分析失败时会给出明确错误提示，不影响消息其余部分的正常处理。

相关文档

模型配置 — 槽位、路由与 API Key
语音交互 — 音频与视频消息转录
浏览器自动化 — 视觉辅助的页面验证

语音交互公网访问与穿透选型