1. 設計原則與目標
1.1 目標設定:建立RTO ≤ 15 分鐘,RPO ≤ 5 分鐘作為核心服務目標。
1.2 可用性:採用雙機房Active-Passive或Active-Active架構達到SLA 99.95%以上。
1.3 分層保護:電力、網路、機房結構、伺服器與應用各層次冗餘。
1.4 標準與合規:依照ISO/IEC 27001與Uptime Institute建議設計N+1或2N冗餘。
1.5 測試頻率:每季度演練一次全站Failover,並記錄RTO/RPO差距。
2. 機房基礎設施配置
2.1 電力:雙市電路、N+1 UPS、48小時柴油發電機;發電機啟動時間 < 30s。
2.2 冷卻與空調:按照ASHRAE標準控制溫度24±3°C與相對濕度45%±10%。
2.3 防火與安全:FM-200滅火、門禁、人流監控與24/7保全。
2.4 機櫃與布線:熱通道/冷通道隔離、光纖與銅纜雙路由徑。
2.5 網路連接:至少2家電信業者BGP多線接入,備援SLA 99.9%。
3. 伺服器與儲存配置範例
3.1 範例主機:Dell R740xd ×4節點,CPU 2×Intel Xeon Gold 5218 (16C),RAM 256GB。
3.2 儲存:NVMe 4×1.92TB,軟體RAID10,vSAN組成共享儲存,總可用容量約12TB。
3.3 網路:雙10GbE LACP uplink,管理網與資料網分流,VLAN隔離。
3.4 虛擬化:VMware vSphere 7.0 + vCenter,HA與DRS啟用,容器以Kubernetes承載應用。
3.5 備援策略:同步複寫到次機房(10Gb dark fiber),若網路受限則改用增量壓縮傳輸。
4. 網路、DNS、CDN與DDoS防禦
4.1 DNS:使用多個權威DNS服務(主/輔),並配合Anycast加速解析。
4.2 CDN:邊緣快取採用Cloudflare或Akamai,減少源站流量與延遲。
4.3 BGP路由:多ISP BGP路由,實現流量快速切換與路由優化。
4.4 DDoS防護:邊界採用Cloudflare免疫+Arbor/Radware行為阻斷設備,能抵禦每秒百Gb攻擊。
4.5 範例參數:邊界ACL、速率限制、TCP SYN Cookie與黑洞 routemap 配置。
5. 備援拓撲與業務連續性流程
5.1 拓撲模型:主場(台北)Active,次場(高雄)熱備,跨站同步儲存。
5.2 切換流程:自動化檢測→BGP撤銷→DNS TTL縮短→流量導向次場。
5.3 RTO/RPO量化:關鍵API服務RTO 10-15 分鐘,RPO 1-5 分鐘。
5.4 測試機制:每月演練單點失效、每季演練全站切換並生成報告。
5.5 人員與通報:值班表與SOP、聯絡清單、第三方ISP/Stackholder通報機制。
6. 真實案例與效能數據
6.1 案例概述:某台灣電商2022年颱風導致區域電力中斷,機房依設計自動切換到次機房,訂單系統持續運作。
6.2 配置細節:主場4節點R740xd vSAN叢集,10Gb dark fiber複寫,Cloudflare CDN緩存佔比達80%。
6.3 成果指標:演練與實際切換中,平均RTO = 12 分鐘,RPO < 3 分鐘,月度停機次數 = 0。
6.4 經驗教訓:事前DNS TTL調整與自動化BGP撤銷腳本為關鍵,DDoS攻擊同時發生時須調整CDN策略。
6.5 建議:定期升級Arbor簽名庫、保持多家CDN與DNS供應商、多點測試。
7. 參考配置對照表
| 項目 | 主機房(台北) | 備援機房(高雄) |
| 伺服器 | Dell R740xd ×4 | Dell R740xd ×4 |
| CPU / RAM | 2×Xeon Gold 5218 / 256GB | 2×Xeon Gold 5218 / 192GB |
| 儲存 | NVMe RAID10, vSAN 12TB | NVMe RAID10, vSAN 10TB |
| 網路 | 2 ISP BGP, 2×10GbE | 2 ISP BGP, 2×10GbE |
| 備援延遲 | 同步複寫, RTT ≈ 8ms | 同步複寫, RTT ≈ 8ms |
来源:台湾idc数据中心机房灾备设计与业务连续性实施指南