跳转到主要内容

安全架构

Myrm 六层纵深防御,确保 Agent 在广泛自主权下仍安全运行。

安全层

功能机制
L1预算控制Token/WU 花费上限,3 级警告(35/45/48 轮)
L2权限12 维工具与资源访问策略
L3限流HTTP 签名检测 + 最小恢复时间 + SSE 事件节流
L4循环检测5 检测器(重复、乒乓、无进展、发散、输出递减)
L5PII 保护自动检测、脱敏、污点追踪
L5.5轨迹分类行为分析 + 盲轨迹分类器异常检测

审批模式

模式说明
Auto只读自动批准,写入需确认
YOLO全部自动批准(可信环境)
HITL每步人工审批
Always-Allow按工具永久批准
Domain-HITL按域/资源分类审批

错误自愈

14 层错误恢复自动处理故障。详见错误恢复

提示词注入防御

内容边界(输出侧)

5 层防御包装外部内容与工具输出:
技术拦截
1Unicode 折叠隐形字符走私
2结构框架剥离仿系统标签的 XML/HTML
3标记消毒已知边界/分隔符模式
4随机边界不可预测 ===BOUNDARY_xxx===
5模式检测角色/指令覆盖、系统模拟

Prompt Guard(输入侧)

108 条模式、7+ 威胁类扫描用户消息、项目规则、技能文件;含反混淆与双语(如「忽略之前的指令」)检测。

子 Agent 安全

控制机制
工具白名单DelegationCapabilityManifest
记忆隔离EPHEMERAL / READ_ONLY_GLOBAL / COLLABORATIVE
污点传播TaintTracker 子→父;外网数据污染则父会话污点
Sink 策略污点会话对危险工具组合升级 HITL
预算边界4 维 DelegationBudget 防失控子 Agent 链

MCP 工具安全

工具名 mcp__{server}__{tool} 隔离;SSRF DNS 固定;OSV 恶意包检测;按 Agent 工具过滤;destructiveHint 默认禁用。

Shell 命令安全

L1 二进制/Unicode → L1.5 ANSI-C/区域引号 → L2 注入向量 → L3 可疑行为模式。

加密与无痕模式

静态 AES-256-GCM;传输 TLS 1.3;API Key 加密库;可选记忆加密;无痕模式物理隔离与阅后即焚。

凭证保护

表单凭证库

密码与 TOTP 永不进 LLM 上下文。设置中带标签凭证;Agent 只见标签,Harness 在 DOM/OS 层注入。

泄漏检测

40+ 正则检测 API Key、连接串、JWT、SSH 私钥等;熵检测未知格式。

PII 脱敏

BLOCKED / REDACTED / WARN / CLEAN 四级。

污点追踪

跟踪敏感数据流经工具执行的间接泄漏路径。

审计追踪

Merkle 链日志:47 种结构化事件类型,防篡改。

工作区规则安全

加载 .myrm.mdAGENTS.md 等时 108 模式扫描注入(含中文)。

紧急控制

E-Stop、会话终止、工具黑名单、预算硬顶。

vs CaMeL Guard

CaMeL 单信任边界;Myrm 6 层洋葱防御、5 域循环检测、3 层错误分类、4 策略凭证池、PTC 沙箱隔离、20+ 模块上下文流水线等更深覆盖。

后台任务隐式凭证拦截 (Anti-Leak Background Tasks)

在 Myrm Agent 中,安全防护不仅限于主对话流程,还深入到每一个后台辅助任务(如自动生成会话标题、自动总结)。
  • O(1) 早期截断:彻底消除超大文本在异步事件循环中执行正则和香农熵计算导致的 CPU Blocking DoS 隐患。
  • 军工级脱敏管线:内置凭证探测器(Shannon Entropy + 正则),在发送给廉价模型生成标题前,自动抹除 API Key 等敏感凭证。
  • 深度结构降噪与隔离:自动剥离代码块、URL 链接、HTML 标签等噪音,并使用 <user_input> XML 标签严格隔离用户输入,防止 Prompt 注入攻击。