功能

模型降级设计

规划中的 request-level fallback 设计，用于在首选模型不可用时切换到备选模型

models 参数允许你指定备选模型列表。当主模型（model 字段）的所有供应商都无法响应时，系统会按顺序尝试备选模型，直到某个模型成功返回。

这部分目前作为 public API 设计文档保留，便于后续将 OpenAI / Anthropic 请求级降级收敛成统一规范；当前线上更稳定的容错仍以 provider 级故障切换为主。

工作原理

在请求体中使用 model 指定主模型，同时通过 models 数组按优先级排列备选模型。下方示例展示的是规划中的 public contract，用于定义未来的模型级降级行为。

curl -X POST https://nexusflow.hk/v1/chat/completions \
  -H "Authorization: Bearer sk-air-your-key" \
  -H "Content-Type: application/json" \
  -d '{
    "model": "qwen3-max",
    "models": ["deepseek-v3.2", "glm-4.7"],
    "messages": [{"role": "user", "content": "Hello!"}]
  }'

降级行为

场景	行为
主模型可用	正常使用主模型（model 字段）
主模型所有供应商失败	按顺序尝试 models 中的备选模型
所有模型都失败	返回最后一个错误

定价

请求按实际使用的模型计费。你可以在调用日志中查看每次请求实际使用的模型和对应费用。

使用建议

按能力排序

将能力最强的模型作为主模型，能力稍弱但稳定性更高的模型作为备选。

合理设置数量

1-2 个备选模型通常足够。过多的备选会增加总体延迟。

适用场景

模型降级适合对可用性要求极高的生产环境。对于开发和测试，使用单个模型即可。

结合供应商路由

供应商路由处理同一模型的端点切换，模型降级处理跨模型的兜底。两者互为补充。

模型降级设计

工作原理

降级行为

定价

使用建议

相关文档