> ## Documentation Index
> Fetch the complete documentation index at: https://docs.myrmagent.ai/llms.txt
> Use this file to discover all available pages before exploring further.

# 视觉与图片理解

> 向 Agent 发送图片——即使主模型不支持视觉也能正常工作。

# 视觉与图片理解

Myrm 支持在 WebUI 对话、IM 渠道和桌面端上传图片。当**主模型不支持视觉**时，系统会自动通过 **Vision Fallback（视觉备选模型）** 将图片转为文字描述，再交给主模型继续对话——无需手动切换模型。

## 工作原理

1. 在 WebUI 中粘贴、拖拽或上传图片（或在支持的渠道发送图片）。
2. Myrm 检测当前主模型是否支持视觉（`supports_vision`）。
3. **支持** — 图片作为原生多模态内容直接发给主模型。
4. **不支持** — 界面显示 **「正在分析图片…」**，调用你配置的 **Vision Fallback** 模型生成描述，替换图片块后继续用主模型回答。

**视频**走相同管线：支持原生视频的模型直传；否则通过帧提取 + 视觉分析降级为文字描述。

## 配置步骤

1. 打开 **设置 → 模型**。
2. 选择 **主模型**（任意提供商均可）。
3. 设置 **Vision Fallback** 为支持视觉的模型（如 GPT-4o、Gemini Flash、Qwen-VL）。
4. 可选：在模型选择器中查看能力图标——带眼睛图标的模型原生支持视觉。

Myrm 通过 LiteLLM 与 models.dev 自动探测模型能力；也可在模型卡片中手动覆盖。

## 典型场景

* **截图问答** — 粘贴截图，询问问题或下一步操作。
* **标注编辑器** — 发送前在图片上画圈、箭头，引导 Agent 关注特定区域。
* **文本主模型 + 视觉备选** — 主模型选低成本文本模型，图片由 Vision Fallback 处理。
* **渠道图片** — Telegram、Discord、iMessage 等渠道的图片进入同一套管线。
* **PDF 与文档** — 扫描版或图片型 PDF 在文本稀疏时可走视觉分析。

## 状态与缓存

Vision Fallback 运行期间，聊天区显示 **正在分析图片**（或 **正在分析视频**）提示，完成后自动消失。

同一会话内**内容相同的图片**会按哈希缓存，重复发送不会重复调用视觉 API。

## 使用建议

* 若频繁发送截图，可为 Vision Fallback 配置**更快、更省**的模型。
* 大图会在调用视觉模型前自动压缩。
* 分析失败时会给出明确错误提示，不影响消息其余部分的正常处理。

## 相关文档

* [模型配置](/zh/guides/model-configuration) — 槽位、路由与 API Key
* [语音交互](/zh/guides/voice-interaction) — 音频与视频消息转录
* [浏览器自动化](/zh/guides/browser-automation) — 视觉辅助的页面验证