1. 巡检目的与频率
- 明确巡检目标:确保可用性、响应速度与安全性。
- 建议频率:关键节点每日巡检,应用服务每12小时,完整备份与恢复演练每月。
- SLA 对齐:针对站群节点设定 99.9% 以上月度可用率目标。
- 指标关注:CPU、内存、磁盘、带宽、错误率、95/99百分位延时。
- 报告与告警:自动生成日报、周报,异常触发 PagerDuty 或 Slack 告警。
2. 硬件与虚拟机资源巡检(含配置表)
- 检查项:CPU 利用率、平均负载、内存使用、磁盘使用与 I/O 等待。
- 磁盘健康:SMART 状态、RAID 同步情况与 inode 使用率。
- 虚拟化层:检查宿主机 hypervisor 负载与网络丢包。
- 带宽监控:上下行峰值、丢包与抖动,确认计费与限速策略。
- 示例配置表(部分
台湾站群节点):
| 节点 | CPU | 内存 | 磁盘 | 带宽 |
| VPS-01 | 2 vCPU | 4 GB | 80 GB SSD | 1 Gbps |
| VPS-02 | 4 vCPU | 8 GB | 160 GB SSD | 1 Gbps |
| DB-01 | 4 vCPU | 16 GB | 500 GB NVMe | 2 Gbps |
3. 网络/域名/CDN 与 DDoS 防御巡检要点
- DNS 检查:权威记录、TTL、NS 一致性与域名续费/锁定状态。
- CDN 健康:回源响应时间、缓存命中率、边缘节点可用性。目标缓存命中率 ≥ 85%。
- BGP/链路:监控跨 ASN 路径变化与丢包。白名单与黑洞策略定期验证。
- DDoS 阈值:记录历史峰值(例如 2025-09 曾遭遇 3.2 Gbps 流量洪峰),配合 Cloudflare/上游清洗。
- 演练:每季度模拟 1–3 Gbps 洪泛测试,验证速率限制与清洗链路。
4. 服务与进程健康检查与自动化脚本推荐
- 必检服务:nginx/ltmp/Apache、php-fpm、MySQL/MariaDB、Redis、Elasticsearch。
- 自动化脚本:shell 心跳检测并重启服务(systemctl restart)脚本、logrotate 自动清理脚本。
- 推荐工具:monit 或 supervisor 用于进程守护,结合 systemd 模式。
- 示例脚本清单:check_nginx.sh、check_mysql.sh、auto_backup.sh、auto_scale.sh、fail2ban_update.sh。
- 实施建议:脚本以无状态为主,配合 Ansible 定期推送并在 Git 管理版本。
5. 日志、备份与恢复演练
- 日志策略:本地 7 天、中央日志(ELK/Graylog)保存 30 天,异常日志触发告警。
- 备份频率:MySQL 全量每日+二进制日志实时传送,文件增量每小时,异地对象存储保留 30 天。
- 恢复演练:每月一次恢复演练,目标 RTO ≤ 1 小时(关键业务)与 RPO ≤ 1 小时。
- 数据校验:备份后自动校验 MD5 与恢复一致性报告。
- 示例:mysqldump 每日 02:00 全量,使用 rsync 到台湾以外的对象存储(例如 AWS S3 或自建 MinIO)。
6. 自动化运维工具与推荐清单
- 基础编排:Ansible(配置)、Terraform(基础设施)、Docker Compose/Kubernetes(容器)。
- 监控告警:Prometheus + node_exporter + Alertmanager,Grafana 仪表盘展示关键指标。
- 安全自动化:Fail2ban、OSSEC、定期漏洞扫描(Nessus/OpenVAS)。
- CI/CD 与部署:GitLab CI 或 GitHub Actions 自动化部署与回滚脚本。
- 备份与归档:使用 rclone 或 boto3 脚本将备份上报到对象存储并做生命周期管理。
7. 真实案例:台湾站群遭遇 DDoS 的应对与数据
- 背景:某媒体站群(8 台前端 VPS,1 台主库)在高峰期遭到 SYN 洪峰攻击。
- 攻击数据:峰值流量 2.5 Gbps,连接数峰值 350k/s,导致 70% 边缘节点丢包。
- 处置流程:1) 立即启用 CDN 全站代理;2) 上游 ISP 启动流量清洗(10 Gbps 清洗通道);3) 在防火墙层加入速率限制与 ACL。
- 结果:清洗后 15 分钟内错误率从 18% 降至 0.4%,页面 TTFB 从 1.2s 降至 200ms。
- 经验教训:事前在 CDN/ISP 策略中预置清洗联动、将关键数据分片到更高规格 DB(主库 4c/16GB,缓存 Redis 2c/8GB),并把自动化重启脚本纳入 SRE 值班流程。
来源:台湾站群服务器日常巡检要点与自动化运维脚本推荐清单