根據網友在群裡的反餽, 本次阿裡雲好像是人員優化引起的大雪崩, 雲産品控制台服務不斷發出異常消息, 各個和阿裡雲沾邊的廠商APP出現了API接口不響應、存儲雪崩、界面卡頓甚至是釘釘都無法打卡的現象。
進展更新
17:50 阿裡雲已確認故障原因與某個底層服務組件有關,工程師正在緊急處理中。
18:54 經過工程師處理,杭州、北京等地域控制台及API服務已恢複,其他地域控制台服務逐步恢複中。
19:20 工程師通過分批重啓組件服務,絕大部分地域控制台及API服務已恢複。
19:43 異常管控服務組件均已完成重啓,除個別雲産品(如消息隊列MQ、消息服務MNS)仍需處理,其餘雲産品控制台及API服務已恢複。
20:12 北京、杭州等地域消息隊列MQ已完成重啓,其餘地域逐步恢複中。
21:11 受影響雲産品均已恢複,因故障影響部分雲産品的數據(如監控、賬單等)可能存在延遲推送情況,不影響業務運行。
阿裡雲對外公開故障不同時間線處理流程信息中寫道:
【異常(處理中)】阿裡雲雲産品控制台服務異常
尊敬的客戶:
您好!北京時間2023年11月12日17:44起,阿裡雲監控發現雲産品控制台訪問及AP調用出現異常,阿裡雲工程師正在緊急介入排查。非常抱歉給您的使用帶來不便,若有任何問題,請隨時聯繫我們。
--進展更新
50 阿裡雲已確認故障原因與某個底層服務組件有關,工程師正在緊急處理中。
54 經過工程師處理,杭州、北京等地域控制台已恢複,其他地域控制台服務逐步恢複中。
20 工程師通過分批重啓組件服務,絕大部分地域控制台服務已恢複訪問。
接下來是標記爲已恢複的
【異常(已恢複)】阿裡雲雲産品控制台服務異常
尊敬的客戶:
您好!北京時間2023年11月12日17:44起,阿裡雲監控發現雲産品控制台訪問及APi調用出現異常,阿裡雲工程師正在緊急介入排查。非常抱歉給您的使用帶來不便,若有任何問題,請隨時聯繫我們。
—-進展更新
50 阿裡雲已確認故障原因與某個底層服務組件有關,工程師正在緊急處理中。
54 經過工程師處理,杭州、北京等地域控制台及API服務已恢複,其他地域控制台服務逐步恢複中。
20 工程師通過分批重啓組件服務,絕大部分地域控制台及API服務已恢複。
43 異常管控服務組件均已完成重啓,除個別雲産品(如消息隊列MQ、消息服務MNS)仍需處理,其餘雲産品控制台及API服務已恢複。
12 北京、杭州等地域消息隊列MQ已完成重啓,其餘地域逐步恢複中。
11 受影響雲産品均已恢複,因故障影響部分雲産品的數據(如監控、賬單等)可能存在延遲推送情況,不影響業務運行。
從上面我們能看到故障狀態,由“處理中”到“已恢複”,所以大家從這個圖能很清晰的知道當前故障所處的狀態。
從阿裡雲給出的對外故障公告來看,故障持續三個半小時,從大批量重啓基礎組件來看面肯定不會小。
故障影響
故障時間長:從阿裡雲給出的對外故障公告來看,故障總體持續了三個半小時
産品影響面大:網上用戶反餽如下,影響阿裡自家的服務:淘寶、釘釘、雲盤、語雀、餓了麽、鹹魚等,影響了使用阿裡雲産品的客戶:瑞幸、蜜雪冰城、虎牙、京東、人人等。
賠償款估計不小:服務穩定性和資損都影響巨大,後續還會有客戶SLA不達標、客戶資損等賠償,賠償款估計也不小。
影響地域廣:從下面截圖來看,影響了N多可用區和N多Region
長遠影響:給用戶多雲或遷雲埋下種子。
當時故障截圖:
與此同時, 據網友反映,天貓精靈、學浪、芒果、蜜雪冰城、人人網、閑魚也出現了不同程度的崩潰和卡頓的情況。
故障原因
以下原因是作者猜測,具體原因以官網爲準
從産品網盤、OSS不可用,多個機房可用區受雪崩影響,應該是一個全球都在用的某個Java鋻權用基礎服務出現了問題。
可能的方向有:存儲、網路、鋻權服務
存儲、網路一般來說都是SET化部署或可用區部署,即使有問題也不會影響全球,排除。那很可能是鋻權服務出問題了,OSS和消息隊列對鋻權服務依賴較大,而且全球都在用。
Java在高並發時GC性能真空的問題會凸顯,也可以導致消息隊列服務出現雪崩的現象。具體是什麽導致鋻權服務出問題,那就不得而知了,反正是猜測。
故障級別
1. 影響有核心産品,淘寶、阿裡雲、釘釘等,而且還影響一大批阿裡雲用戶;
2. 故障總時長達3.5小時;
3. 影響用戶量巨大,雙十一熱度還沒過呢;
據傳, 本次故障級別被評定爲:P0級別。據傳張勇派發了公司郵件聲稱兼任運維相關高級崗位,張劍鋒等高管在阿裡的任職受到影響。
改進措施
對於使用阿裡雲的客戶來說,多雲部署,比如同城多雲,網路延遲小相對好實現。
對於阿裡雲企業本身來說, 應當在力所能及的情況下減少使用老掉牙的Java服務, 多使用c++ rust高性能程序服務疊代, 減少内卷,裁員時按能力從低到高實施而不是無腦卡35嵗, 可以更多避免出現此類的情況。