nexusflow
在线

限流说明

nexusflow 通过 RPM、TPM、审批流、异步任务和监控体系控制峰值流量。高并发不是单一数值,而是限流、队列、轮询节奏和模型延迟的组合。

RPM
控制请求频率,防止瞬时尖峰打穿上游。
TPM
限制每分钟 Token 量,避免长上下文流量挤占资源。
并发
长任务建议走异步队列,而不是同步连接长时间占位。
监控
通过 TTFT、成功率和模型维度延迟观察高峰期退化。

套餐速率限制

套餐RPMTPM并发数说明
免费版2040K2适合个人学习和测试
开发者60150K5适合个人开发者和小型项目
团队版200500K20适合团队协作和中型应用
企业版10002M100适合大规模生产环境
定制版定制定制定制根据需求定制限额

模型 Token 限制

模型上下文窗口最大输入最大输出
qwen3-max262K258K64K
qwen3.6-max-preview262K262K64K
qwen3.6-plus1M1M64K
qwen3.6-flash1M1M64K
qwen3.5-plus1M1M64K
deepseek-v4-pro1M1M16K
deepseek-v4-flash1M1M16K
deepseek-r164K64K8K
deepseek-v364K64K8K

限流相关响应头

当前稳定可依赖的响应头是剩余额度相关信息。更细粒度头部建议以后续平台版本开放情况为准。

响应头说明
X-RateLimit-Remaining当前请求链路可见的剩余请求额度
Retry-After触发限流时建议等待秒数;客户端应配合指数退避

高并发场景建议

同步与异步分流
聊天走 `/v1/chat/completions`,图像 / 视频走 `/v1/tasks`,把长任务从同步链路拆出去。
轮询做退避
任务状态不要高频轮询;建议固定 3-5 秒或指数退避,减少额外放大效应。
结合监控页观察退化
看请求量、TTFT、成功率与模型维度延迟变化,识别是否已逼近容量上限。
业务侧做降级
在高峰期优先切换到更快模型,或降低 max_tokens 与长上下文占用。