Automix 路由
Automix 路由器通过先用便宜模型处理每个查询来优化成本,只在初始响应的置信度低于阈值时才升级到高级模型。
工作原理
- 初始查询 -- 将查询发送到便宜模型
- 置信度检查 -- 评估响应的置信度分数
- 按需升级 -- 如果置信度低于阈值,使用高级模型重新查询
- 返回 -- 返回第一个有置信度的响应
置信度评分
置信度基于以下因素评估:
- 响应中自报的置信度
- 犹豫性语言的存在("我不确定"、"可能是")
- 响应的 token 级熵
- 工具调用成功率
配置
toml
[router]
strategy = "automix"
[router.automix]
enabled = true
confidence_threshold = 0.7
cheap_model = "anthropic/claude-haiku"
premium_model = "anthropic/claude-opus-4-6"
max_escalations = 1成本节省
在典型使用中,Automix 将 60-80% 的查询路由到便宜模型,在保持复杂查询质量的同时实现显著的成本节省。