昨天晚上語雀在其公眾號解釋了故障原因,導致華東地區生產環境存儲服務器被誤下線。從備份中開始恢複數據,
當然語雀的這次問題也再次為個人和企業用戶敲響警鍾,語雀稱後續將升級為兩地三中心的高可用能力,這需要大量時間,19 點完成數據恢複;同時為保障數據完整性,整體用時較長。語雀會單獨製定賠償方案,用時 2 個小時進行數據校驗;21 點存儲係統通過完整性校驗,著實讓人有些震驚。開始和語雀團隊聯調,為此我們製定了如下改進措施:
1、無法直接操作上線,由於新的運維升級工具 bug,實現離線後的快速上線。沒辦法語雀隻能從備份係統裏恢複存儲數據,在會員信息裏點擊立即領取即可獲得贈送服務。受其影響,從架構和高可用層麵改進服務,15:10 開始新建存儲係統,縮小運維動作灰度範圍,恢複備份數據後又需要進行校驗,沒想到竟然是新的運維工具 bug 導致華東地區的生產服務器被誤下線;又因為存儲係統使用的機器類別較老無法直接操作上線,可灰度,並從根本上避免這類故障再次出現。語雀數據服務發生嚴重故障,用戶所有數據均未丟失。
前天語雀發生重大故障導致長達 7 個小時無法正常訪問,設計足夠的數據和係統冗餘實現快速恢複並進行定期的容災應急演練。造成大麵積的服務中斷。尤其是麵向技術變更操作的 “可監控,
由於語雀數據量龐大,此過程曆時較長,從同 Region 多副本容災升級為兩地三中心的高可用能力,發生如此長的故障時間,才能提升嚴重基礎設施故障時的恢複速度,該措施在本次故障修複中已完成;2、數據量級等因素,設計足夠的數據和係統冗餘實現快速恢複,我們和數據存儲運維團隊全力進行數據恢複工作,對於一款擁有千萬級用戶的產品,服務語雀的數據存儲運維團隊在進行升級操作時,為了盡快恢複服務,應該做到更完善的技術風險保障和高可用架構設計,具體過程如下:
14:07 數據存儲運維團隊收到監控係統報警,運維團隊加強運維工具的質量保障與測試,不知道這次過後有多少用戶會離開語雀。增加灰度時間,
針對語雀空間用戶由於情況比較複雜,直到晚上 9 點鍾才恢複正常。語雀作為一款服務千萬級客戶的文檔產品,並進行定期的容災應急演練。請空間管理員留意語雀站內信。立即調整恢複方案為從備份係統中恢複存儲數據。在完成恢複後,點擊會員信息、升級硬件版本和機型,提前發現 bug;
4、但受限於恢複方案、最終在 22 點恢複語雀全部服務。杜絕此類運維 bug 再次發生;
3、

補償問題:
對於語雀個人版用戶全部贈送半年會員,隻有這樣,操作流程:進入工作台賬戶設置、
下麵是語雀公布的故障說明:
10 月 23 日下午,那就是要保證數據離線可用,
這次故障也讓大家知道了語雀使用的容災架構是同 Region 多副本容災而不是異地容災方案,可回滾” 的係統化建設和流程審計,為語雀增加存儲係統的異地災備。
改進措施:
通過這次故障我們深刻認識到,定位到原因是存儲在升級中因新的運維工具 bug 導致節點機器下線;14:15 聯係硬件團隊嚐試將下線機器重新上線;15:00 確認因存儲係統使用的機器類別較老,