首先需要明确业务目标与SLA,例如峰值并发连接数、平均响应时间、最大可接受错误率等。对于台湾区域的部署,常见目标包括:目标并发用户数、P95/P99响应时间、连接建立时间和丢包率阈值。将这些指标以数值形式写入测试计划,便于后续验收。
吞吐量(TPS/请求数每秒)、响应时间分位值(P50/P95/P99)、错误率、系统资源利用率(CPU/内存/磁盘IO/网卡)和带宽占用率。
把业务峰值拆解为并发会话、请求率与流量峰值,并设置合理的告警阈值和验收标准。
设计场景要基于真实访问日志和业务模型,包含常规峰值、业务促销、爬虫高峰等。建议先做小规模压力递增(阶梯式),再做稳定持久(Soak)与冲击测试(Spike)。
使用地理分布的压测工具模拟台湾用户,考虑CDN缓存命中率、动态内容比例和长连接(WebSocket/HTTP2)占比。
平稳上升到目标并发,维持指定时间(如30分钟),随后进行短时峰值冲击,观察系统退避与重试策略。
避免在无预警下对生产网络做大规模压测,先在预生产或隔离网络验证场景。
网络层面重点检查链路质量、带宽上下行、丢包率、延迟和抖动。对大带宽服务器而言,还需验证网卡聚合、MTU配置、NIC驱动与中断亲和(IRQ affinity)。
使用iperf、mtr等工具在台湾节点与目标带宽端点间做双向测试,记录带宽稳定性与峰值吞吐。
确认交换机/路由器的转发能力、ACL/QoS规则对业务流量的影响、以及是否有带宽限制策略。
检查不同ISP的回程表现,避免因骨干或海缆问题导致抖动或突发拥塞。
服务器层面要核查硬件规格(CPU、内存、SSD、网卡)、操作系统调优(TCP参数、文件句柄)、以及应用容器/进程的资源限制。架构层面包括负载均衡器、反向代理、缓存策略和数据库连接池配置。
调整TCP TIME_WAIT、SYN速率、net.core.somaxconn、文件描述符上限等,确保能支撑高并发短连接场景。
验证会话粘性、健康检查频率、后端故障转移以及SSL卸载是否影响响应时间。
评估磁盘IOPS与延迟、数据库索引与连接池大小,做读写压力分离或缓存策略验证。
部署前建立可观测性方案,包括实时监控、告警与日志采集。关键指标纳入仪表盘(响应时间、错误率、带宽、资源使用率),并设定自动化回归测试以验证变更不会破坏性能。
监控应用层(APM)、系统层与网络层指标,设置分级告警并演练告警响应流程。
确保分布式追踪(如OpenTelemetry)和结构化日志可快速定位慢请求和错误链路。
在每次代码或配置变更后运行自动化性能回归,比较基线指标,若超出阈值则阻塞部署。
