nexusflow
在线
功能

模型降级设计

规划中的 request-level fallback 设计,用于在首选模型不可用时切换到备选模型

models 参数允许你指定备选模型列表。 当主模型(model 字段)的所有供应商都无法响应时, 系统会按顺序尝试备选模型,直到某个模型成功返回。

这部分目前作为 public API 设计文档保留,便于后续将 OpenAI / Anthropic 请求级降级收敛成统一规范;当前线上更稳定的容错仍以 provider 级故障切换为主。

工作原理

在请求体中使用 model 指定主模型,同时通过 models 数组按优先级排列备选模型。 下方示例展示的是规划中的 public contract,用于定义未来的模型级降级行为。

curl -X POST https://nexusflow.hk/v1/chat/completions \
  -H "Authorization: Bearer sk-air-your-key" \
  -H "Content-Type: application/json" \
  -d '{
    "model": "qwen3-max",
    "models": ["deepseek-v3.2", "glm-4.7"],
    "messages": [{"role": "user", "content": "Hello!"}]
  }'

降级行为

场景行为
主模型可用正常使用主模型(model 字段)
主模型所有供应商失败按顺序尝试 models 中的备选模型
所有模型都失败返回最后一个错误

定价

请求按实际使用的模型计费。你可以在 调用日志 中查看每次请求实际使用的模型和对应费用。

使用建议

按能力排序
将能力最强的模型作为主模型,能力稍弱但稳定性更高的模型作为备选。
合理设置数量
1-2 个备选模型通常足够。过多的备选会增加总体延迟。
适用场景
模型降级适合对可用性要求极高的生产环境。对于开发和测试,使用单个模型即可。
结合供应商路由
供应商路由处理同一模型的端点切换,模型降级处理跨模型的兜底。两者互为补充。

相关文档