6 月 27 日下午,有眾多網(wǎng)友在微博中反饋阿里云平臺出現(xiàn)了訪問故障。我們從阿里云官網(wǎng)公告中了解到,故障的開始時間為 2018 年 6 月 27 日16: 21 左右,主要原因為,阿里云官網(wǎng)的部分管控功能,及MQ、NAS、OSS等產(chǎn)品的部分功能出現(xiàn)訪問異常。不過,目前大部分功能已經(jīng)恢復(fù)正常。
隨后阿里云發(fā)表了一篇故障說明,說明中阿里云表示:對于這次故障,沒有借口,我們不能也不該出現(xiàn)這樣的失誤!我們將認真復(fù)盤改進自動化運維技術(shù)和發(fā)布驗證流程,敬畏每一行代碼,敬畏每一份托付。
以下為阿里云故障說明原文:
6 月 27 日下午,我們在運維上的一個操作失誤,導(dǎo)致一些客戶訪問阿里云官網(wǎng)控制臺和使用部分產(chǎn)品功能出現(xiàn)問題,引發(fā)了大量吐槽。故障于北京時間 2018 年 6 月 27 日16: 21 左右開始,16: 50 分開始陸續(xù)恢復(fù)。
經(jīng)過緊急技術(shù)復(fù)盤,故障原因如下:
當(dāng)天下午,工程師團隊在上線一個自動化運維新功能中,執(zhí)行了一項變更驗證操作。這一功能在測試環(huán)境驗證中并未發(fā)生問題,上線到自動化運維系統(tǒng)后,觸發(fā)了一個未知代碼bug,錯誤代碼禁用了部分內(nèi)部IP,導(dǎo)致部分產(chǎn)品訪問鏈路不通。后續(xù)人工介入后,工程師團隊快速定位問題進行了恢復(fù)。
受影響方位包括阿里云官網(wǎng)控制臺,以及MQ、NAS、OSS等產(chǎn)品功能。對于這次故障,沒有借口,我們不能也不該出現(xiàn)這樣的失誤!我們將認真復(fù)盤改進自動化運維技術(shù)和發(fā)布驗證流程,敬畏每一行代碼,敬畏每一份托付。