限流说明
nexusflow 通过 RPM、TPM、审批流、异步任务和监控体系控制峰值流量。高并发不是单一数值,而是限流、队列、轮询节奏和模型延迟的组合。
RPM
控制请求频率,防止瞬时尖峰打穿上游。
TPM
限制每分钟 Token 量,避免长上下文流量挤占资源。
并发
长任务建议走异步队列,而不是同步连接长时间占位。
监控
通过 TTFT、成功率和模型维度延迟观察高峰期退化。
套餐速率限制
模型 Token 限制
限流相关响应头
当前稳定可依赖的响应头是剩余额度相关信息。更细粒度头部建议以后续平台版本开放情况为准。
高并发场景建议
同步与异步分流
聊天走 `/v1/chat/completions`,图像 / 视频走 `/v1/tasks`,把长任务从同步链路拆出去。
轮询做退避
任务状态不要高频轮询;建议固定 3-5 秒或指数退避,减少额外放大效应。
结合监控页观察退化
看请求量、TTFT、成功率与模型维度延迟变化,识别是否已逼近容量上限。
业务侧做降级
在高峰期优先切换到更快模型,或降低 max_tokens 与长上下文占用。