功能
模型降级设计
规划中的 request-level fallback 设计,用于在首选模型不可用时切换到备选模型
models 参数允许你指定备选模型列表。 当主模型(model 字段)的所有供应商都无法响应时, 系统会按顺序尝试备选模型,直到某个模型成功返回。
这部分目前作为 public API 设计文档保留,便于后续将 OpenAI / Anthropic 请求级降级收敛成统一规范;当前线上更稳定的容错仍以 provider 级故障切换为主。
工作原理
在请求体中使用 model 指定主模型,同时通过 models 数组按优先级排列备选模型。 下方示例展示的是规划中的 public contract,用于定义未来的模型级降级行为。
降级行为
定价
请求按实际使用的模型计费。你可以在 调用日志 中查看每次请求实际使用的模型和对应费用。
使用建议
按能力排序
将能力最强的模型作为主模型,能力稍弱但稳定性更高的模型作为备选。
合理设置数量
1-2 个备选模型通常足够。过多的备选会增加总体延迟。
适用场景
模型降级适合对可用性要求极高的生产环境。对于开发和测试,使用单个模型即可。
结合供应商路由
供应商路由处理同一模型的端点切换,模型降级处理跨模型的兜底。两者互为补充。