阿裡雲雙11並發故障消息複盤

字號+ 編輯: 国内TP粉 修訂: 种花家 來源: 网络转载 2023-11-14 我要說兩句(1)

2023年11月12號接到控制台短信: 尊敬的客戶:您好!北京時間2023年11月12日 17:44起,阿裡雲監控發現雲産品控制台訪問及API調用出現異常,阿裡雲工程師正在緊急介入排查。非常抱歉給您的使用帶來不便,若有任何問題,請隨時聯繫我們。

根據網友在群裡的反餽, 本次阿裡雲好像是人員優化引起的大雪崩, 雲産品控制台服務不斷發出異常消息, 各個和阿裡雲沾邊的廠商APP出現了API接口不響應、存儲雪崩、界面卡頓甚至是釘釘都無法打卡的現象。

進展更新

17:50 阿裡雲已確認故障原因與某個底層服務組件有關,工程師正在緊急處理中。

18:54 經過工程師處理,杭州、北京等地域控制台及API服務已恢複,其他地域控制台服務逐步恢複中。

19:20 工程師通過分批重啓組件服務,絕大部分地域控制台及API服務已恢複。

19:43 異常管控服務組件均已完成重啓,除個別雲産品(如消息隊列MQ、消息服務MNS)仍需處理,其餘雲産品控制台及API服務已恢複。

20:12 北京、杭州等地域消息隊列MQ已完成重啓,其餘地域逐步恢複中。

21:11 受影響雲産品均已恢複,因故障影響部分雲産品的數據(如監控、賬單等)可能存在延遲推送情況,不影響業務運行。

阿裡雲對外公開故障不同時間線處理流程信息中寫道:

【異常(處理中)】阿裡雲雲産品控制台服務異常

尊敬的客戶:

您好!北京時間2023年11月12日17:44起,阿裡雲監控發現雲産品控制台訪問及AP調用出現異常,阿裡雲工程師正在緊急介入排查。非常抱歉給您的使用帶來不便,若有任何問題,請隨時聯繫我們。

--進展更新

50 阿裡雲已確認故障原因與某個底層服務組件有關,工程師正在緊急處理中。

54 經過工程師處理,杭州、北京等地域控制台已恢複,其他地域控制台服務逐步恢複中。

20 工程師通過分批重啓組件服務,絕大部分地域控制台服務已恢複訪問。

接下來是標記爲已恢複的

【異常(已恢複)】阿裡雲雲産品控制台服務異常

尊敬的客戶:

您好!北京時間2023年11月12日17:44起,阿裡雲監控發現雲産品控制台訪問及APi調用出現異常,阿裡雲工程師正在緊急介入排查。非常抱歉給您的使用帶來不便,若有任何問題,請隨時聯繫我們。

—-進展更新

50 阿裡雲已確認故障原因與某個底層服務組件有關,工程師正在緊急處理中。

54 經過工程師處理,杭州、北京等地域控制台及API服務已恢複,其他地域控制台服務逐步恢複中。

20 工程師通過分批重啓組件服務,絕大部分地域控制台及API服務已恢複。

43 異常管控服務組件均已完成重啓,除個別雲産品(如消息隊列MQ、消息服務MNS)仍需處理,其餘雲産品控制台及API服務已恢複。

12 北京、杭州等地域消息隊列MQ已完成重啓,其餘地域逐步恢複中。

11 受影響雲産品均已恢複,因故障影響部分雲産品的數據(如監控、賬單等)可能存在延遲推送情況,不影響業務運行。

從上面我們能看到故障狀態,由“處理中”到“已恢複”,所以大家從這個圖能很清晰的知道當前故障所處的狀態。

從阿裡雲給出的對外故障公告來看,故障持續三個半小時,從大批量重啓基礎組件來看面肯定不會小。

故障影響

故障時間長:從阿裡雲給出的對外故障公告來看,故障總體持續了三個半小時

産品影響面大:網上用戶反餽如下,影響阿裡自家的服務:淘寶、釘釘、雲盤、語雀、餓了麽、鹹魚等,影響了使用阿裡雲産品的客戶:瑞幸、蜜雪冰城、虎牙、京東、人人等。

賠償款估計不小:服務穩定性和資損都影響巨大,後續還會有客戶SLA不達標、客戶資損等賠償,賠償款估計也不小。

影響地域廣:從下面截圖來看,影響了N多可用區和N多Region

長遠影響:給用戶多雲或遷雲埋下種子。

當時故障截圖:

1.jpg

2.jpg


與此同時, 據網友反映,天貓精靈、學浪、芒果、蜜雪冰城、人人網、閑魚也出現了不同程度的崩潰和卡頓的情況。

故障原因

以下原因是作者猜測,具體原因以官網爲準

從産品網盤、OSS不可用,多個機房可用區受雪崩影響,應該是一個全球都在用的某個Java鋻權用基礎服務出現了問題。

可能的方向有:存儲、網路、鋻權服務

存儲、網路一般來說都是SET化部署或可用區部署,即使有問題也不會影響全球,排除。那很可能是鋻權服務出問題了,OSS和消息隊列對鋻權服務依賴較大,而且全球都在用。

Java在高並發時GC性能真空的問題會凸顯,也可以導致消息隊列服務出現雪崩的現象。具體是什麽導致鋻權服務出問題,那就不得而知了,反正是猜測。

故障級別

1. 影響有核心産品,淘寶、阿裡雲、釘釘等,而且還影響一大批阿裡雲用戶;

2. 故障總時長達3.5小時;

3. 影響用戶量巨大,雙十一熱度還沒過呢;

據傳, 本次故障級別被評定爲:P0級別。據傳張勇派發了公司郵件聲稱兼任運維相關高級崗位,張劍鋒等高管在阿裡的任職受到影響。

改進措施

對於使用阿裡雲的客戶來說,多雲部署,比如同城多雲,網路延遲小相對好實現。

對於阿裡雲企業本身來說, 應當在力所能及的情況下減少使用老掉牙的Java服務, 多使用c++ rust高性能程序服務疊代, 減少内卷,裁員時按能力從低到高實施而不是無腦卡35嵗, 可以更多避免出現此類的情況。


閲完此文,您的感想如何?
  • 有用

    2

  • 沒用

    1

  • 開心

    2

  • 憤怒

    1

  • 可憐

    1

1.如文章侵犯了您的版權,請發郵件通知本站,該文章將在24小時内刪除;
2.本站標注原創的文章,轉發時煩請注明來源;
3.交流群: 2702237 13835667

相關課文
  • 古爾曼:蘋果公司正將更多注意力轉向6G研發

  • git clone或者git pull因爲網路問題導致失敗

  • 大裁員, 巨虧, 知乎“值乎”?

  • 小談互聯網變現掙錢的14個模式

我要說說
網上賓友點評
1 樓 IP 115.183.***.20 的嘉賓 说道 : 4个月前
感谢高并发的大Java, 能让故障稳定发生。