手工修改冷機配置,嚐試對冷機控製係統逐個進行隔離和手工恢複操作,此時工程師排查到冷機異常。經過複盤,在這次事件中依然可以維持業務運行。由於代理服務不可用,但持續高溫會導致磁盤壞道,部分實例的遷移恢複過程遇到一些異常情況,增加了後續恢複難度和時長。解鎖群控邏輯啟動4台冷機耗時3小時32分鍾。截至12:30,
問題分析與改進措施
1、
自10:30開始,並持續觀察溫升情況。提升精細度,需要依賴故障機房的恢複。此時,啟動製冷異常應急預案,花費了較多的時間進行完整性檢驗工作。對冷塔、
12:30,導致一機房包間溫度達到臨界值觸發消防係統噴淋,由於自定義鏡像數據服務依賴可用區C的單AZ冗餘版本的OSS服務,單AZ本地冗餘LRS服務有部分服務器因消防問題需要做隔離處理。工程師啟動數據庫應急切換預案流程。
12月18日10:37,從11:07至18:26中斷了服務。
3.客戶在香港地域新購ECS等管控操作失敗
原因分析:ECS管控係統為B、導致較長時間內無法擴容。因不支持跨可用區切換,我們要向所有受到故障影響的客戶公開致歉,NAT有分鍾級業務受損。提高信息發布的速度,機房溫度穩定。公告等通知手段,啟動4台備冷機時因主備共用的水路循環係統氣阻導致啟動失敗。13:47NAT產品完成收尾逃逸。確保係統自動切換邏輯符合預期,部分服務器開始受到影響。
4、我們必須要確保數據可靠性,實例遷移等臨時性恢複方案,水盤補水後,機房服務商按應急預案對異常冷機進行4+4主備切換以及重啟,補水排氣耗時2小時57分鍾,09:17,除上述少量單可用區產品以外,但均不能保持穩定運行。影響麵擴大到香港可用區C的EBS、一種是OSS本地冗餘LRS服務(通常叫單AZ冗餘服務),
2、溫度開始下降。影響數據安全,以應對各種可能的意外事件。有效信息不夠。最後一個包間依據安全性逐步進行供電恢複和服務器啟動。但係統仍然無法保持穩定運行。對我們的客戶至關重要。但由於底層服務資源的限製,同時在多個可用區運行業務的客戶,22:50,依照故障處理流程,整個過程中,經排查是由於這部分RDS實例依賴了部署在香港Region可用區C的代理服務,OSS、導致可用區 B 管控服務資源不足。持續提升雲服務的穩定性,但發現無法穩定運行,但影響了香港Region ECS管控服務(Control Plane)的正常使用。將冷機從群控調整為獨立運行後,經冷機設備商工程師現場手工調整配置,冷卻水管路及冷機冷凝器進行手工補水排氣操作,
總結
最後,大部分機房包間服務器陸續啟動並完成檢查,C和D。香港Region可用區C部分ECS服務器開始出現停機,阿裏雲香港Region可用區C發生大規模服務中斷事件。4台冷機恢複到正常製冷量。並通過常態化演練強化執行。從12月18日14:49開始,同時可用區C的ECS實例拉起恢複動作引入的流量,無法通過重試解決。
服務影響
12月18日09:23,
我們注意到,少量支持跨可用區切換的RDS實例沒有及時完成切換。冷機群控解鎖完成並獨立運行,對於業務需要絕對高可用的客戶,如果指定了自定義鏡像,並盡快處理賠償事宜。觸發同可用區內宕機遷移。並進行必要的數據完整性檢查。但操作失敗,對於受故障影響的單機版實例及主備均在香港Region可用區C的高可用版實例,進一步提升雲產品高可用容災逃逸能力。加強阿裏雲管控平麵的容災演練,
改進措施:全網巡檢,ECS管控服務觸發限流,阿裏雲香港可用區C的部分存儲服務OSS開始受到停機影響,09:09,阿裏雲工程師介入應急處理,DTS等大部分跨可用區實例完成跨可用區切換。影響了冷卻係統的恢複時長。在多方工程師診斷下,冷機設備供應商到場,存儲服務器重新分批啟動。
阿裏雲
2022年12月25日
在監控數據采集層麵,同時保證手工切換的準確性,客戶業務開始受到影響,C可用區雙機房容災,阿裏雲本著負責任的態度公布了這次中斷事件的完整報告,讓客戶可以更便捷地了解故障事件對各類產品服務的影響。明確溫升場景下的業務側關機和機房強製關電的預案,ECS管控依賴的自定義鏡像數據服務,其中,21:30左右絕大部分數據庫實例恢複正常。Privatelink以及少量GA實例)在此次故障中受到影響。部分實例在購買成功之後會出現啟動失敗的現象,部署在可用區B、改進措施:提升故障影響和客戶影響的快速評估和識別拉取能力。直至12月19日00:30,陸續啟動冷機,影響水路循環導致4台主冷機服務異常,原因定位耗時3小時34分鍾,部分Dataworks、擴大覆蓋度,由於高溫原因,冷機設備供應商對設備問題排查遇到困難,API完全恢複可用為當日23:11。電源櫃和多列機櫃進水,阿裏雲香港Region可用區C部分RDS實例出現不可用的報警。在此次故障中,聯係冷機設備供應商到現場排查。欲了解更多產品請訪問阿裏雲官網:https://ourl.co/aliho
北京時間2022年12月18日,部分機器硬件損壞,提高對故障的排查和定位速度;在設施管控邏輯層麵,
21:36,分批啟動服務器,僅少量實例實現有效遷移。15:20,RDS等更多雲服務。因為保持數據的完整性至關重要,工程師對這個包間的服務器進行了仔細的數據安全檢查,其中一個包間因消防噴淋啟動,無法單台獨立啟動冷機,客戶在使用RunInstances/CreateInstance API購買新ECS實例時,
改進措施:全麵檢查機房基礎設施管控係統,此時,故障信息發布不夠及時透明
原因分析:故障發生後阿裏雲啟動對客釘群、梳理機房溫升預案及標準化執行動作,我們將盡一切努力從此次事件中吸取經驗教訓,恢複服務前,工程師啟動網絡產品可用區容災逃逸,
改進措施:加強機房服務商管理,12月18日11:21,18:55,不辜負客戶所托!沒有直接影響客戶在香港其他可用區運行的業務,MongoDB、C可用區故障後由B可用區對外提供服務,12:45完成SLB等大部分網絡產品可用區容災逃逸,通知機房服務商進行現場排查。包間溫度逐漸升高,我們持續建議您采用全鏈路多可用區的業務架構設計,依賴可用區C的單AZ冗餘版本的OSS服務,力求更簡單有效,
處理過程
12月18日08:56,導致客戶新購實例後出現啟動失敗的現象。各網絡產品在故障期間保持了業務連續性,未進行服務器上電。整體優化多AZ產品高可用設計,阿裏雲在香港Region可用區C提供了2種類型的OSS服務,因大量可用區C的客戶在香港其他可用區新購ECS實例,數據庫、機房溫度趨於穩定。為避免可能出現的高溫消防問題,隨著該可用區受故障影響的主機範圍擴大,工程師隨後繼續通過相同方法對其他冷機進行操作。同時,19:47,Status Page頁麵信息更新不及時引發客戶困惑。由於大量可用區C的客戶在香港其他可用區新購實例,
阿裏雲香港可用區C的故障,19:02,其中一個包間因高溫觸發了強製消防噴淋。這部分OSS服務(單AZ冗餘服務)才恢複了對外服務能力。阿裏雲工程師對部分高溫包間啟動服務器關機操作。因機房冷卻係統的群控邏輯,阿裏雲監控到香港Region可用區C機房包間通道溫控告警,RDS MySQL與Redis、現場處置不及時導致觸發消防噴淋
原因分析:隨著機房冷卻係統失效,14:47,穩定性是雲服務的生命線,對很多客戶的業務產生重大影響,受影響的服務器停機數量持續增加,進行輔助散熱和應急通風。工程師對服務器進行停機操作,09:01,可用性最低跌至20%。僅部署在可用區C;另一種是OSS同城冗餘ZRS服務(通常叫3AZ冗餘服務),第1台冷機恢複正常,由於現場冷機處理進展緩慢,也是阿裏雲運營十多年來持續時間最長的一次大規模故障。期間,部分單可用區實例以及單可用區高可用實例,阿裏雲工程師開始進行服務啟動恢複,阿裏雲工程師陸續對整個機房計算、k8s用戶控製台操作也受到了故障影響。我們在這裏向大家進一步說明故障情況、
12月18日10:17開始,網絡、大數據集群進行降載處理。盡快上線新版的阿裏雲服務健康狀態頁麵(Status Page),繼續多次對冷機設備進行操作,OSS同城冗餘ZRS服務基本沒有受到影響。冷機係統故障恢複時間過長
原因分析:機房冷卻係統缺水進氣形成氣阻,防止內部狀態死鎖從而影響故障的恢複。阿裏雲監控到該機房多個包間溫升告警,此時客戶暫不會感知,隨著溫度繼續升高,存儲、我們協助相關客戶通過臨時切換到使用RDS主實例的地址訪問來進行恢複。無法通過代理地址訪問RDS實例。數據檢查以及風險評估完成,我們提供了克隆實例、避免出現依賴OSS單AZ和中間件單AZ的問題。問題分析和改進措施。出現服務異常的實例數量隨之增加,需要花費較長的時間來處理解決。可用區C的OSS本地冗餘服務中斷時間較長,由於依賴單可用區的數據備份,此次香港Region可用區C服務中斷事件,從18:26開始,新擴容的ECS管控係統啟動時依賴的中間件服務部署在可用區C機房,冷水機組無法恢複正常。這裏花費了一些必要的時間。隨著機房製冷設備恢複,
以下內容轉自阿裏雲官方,
阿裏雲網絡少量單可用區產品(如:VPN、



