故障背景與主要影響
故障背景
6月6日凌晨,阿里云的核心域名aliyuncs.com遭到異常攻擊,導(dǎo)致其旗下對象存儲OSS、CDN、容器鏡像服務(wù)ACR、云解析DNS等多項關(guān)鍵服務(wù)解析異常。這一事件迅速在互聯(lián)網(wǎng)技術(shù)圈內(nèi)引發(fā)軒然大波。
主要影響
- 服務(wù)中斷:阿里云的核心服務(wù)如對象存儲、CDN等無法正常使用,導(dǎo)致大量用戶業(yè)務(wù)中斷。
- 業(yè)務(wù)損失:知名技術(shù)社區(qū)cnblogs全國訪問癱瘓,大量企業(yè)級應(yīng)用陷入“404地獄”,業(yè)務(wù)損失難以估量。
- 海外用戶受影響:由于DNS緩存的存在,海外用戶的解析恢復(fù)更為緩慢,進一步擴大了影響范圍。
恢復(fù)速度與應(yīng)對措施
恢復(fù)速度
阿里云在發(fā)現(xiàn)故障后迅速響應(yīng),工程師于凌晨04:04初步確認問題并緊急處理。早上8:11分確認解析異常修復(fù),08:40受影響云產(chǎn)品已全部恢復(fù)。整個恢復(fù)過程耗時約5小時43分鐘,相較于其他類似事件,恢復(fù)速度較快。

應(yīng)對措施
- 緊急修改DNS:阿里云工程師緊急將DNS修改為備用地址,以盡快恢復(fù)服務(wù)。
- 透明溝通:阿里云通過“健康看板”實時通報服務(wù)狀態(tài),增強了用戶對服務(wù)的信任感。
- 備用導(dǎo)航:阿里云在故障期間提供了備用導(dǎo)航,幫助用戶訪問受影響的服務(wù)。
原因分析與責(zé)任歸屬
原因分析
- 域名被劫持:根據(jù)多方報道,aliyuncs.com域名被劫持指向了Shadowserver的服務(wù)器。這通常意味著域名下的某個子域名被用于非法活動,如傳播惡意軟件、釣魚網(wǎng)站、違法內(nèi)容等。
- 舉報與緊急接管:某網(wǎng)絡(luò)安全公司可能發(fā)現(xiàn)了aliyuncs.com下的某個子域名被用于違法行為,并收集證據(jù)舉報給了域名注冊商VeriSign。根據(jù)ICANN規(guī)則,VeriSign有權(quán)將域名解析權(quán)轉(zhuǎn)移給Shadowserver以阻止進一步惡意活動。
責(zé)任歸屬
- 阿里云:作為域名持有者,阿里云應(yīng)加強對子域名的管理和審查,防止被用于非法活動。此次事件暴露出阿里云在域名安全管理方面的不足。
- 域名注冊商VeriSign:根據(jù)ICANN規(guī)則執(zhí)行緊急接管操作,但此次事件也引發(fā)了關(guān)于域名國際管轄風(fēng)險的討論。
- 網(wǎng)絡(luò)安全公司:在發(fā)現(xiàn)違法行為后及時向域名注冊商舉報,是維護網(wǎng)絡(luò)安全的重要舉措。但舉報前是否進行了充分調(diào)查和取證,也值得探討。
預(yù)防措施與未來展望
預(yù)防措施
- 加強域名安全管理:阿里云應(yīng)加強對子域名的管理和審查,定期備份域名和DNS記錄,設(shè)置域名的轉(zhuǎn)移保護等。
- 建立應(yīng)急響應(yīng)機制:建立完善的應(yīng)急響應(yīng)機制,確保在類似事件發(fā)生時能夠迅速響應(yīng)并恢復(fù)服務(wù)。
- 提升透明度與溝通:通過健康看板等渠道實時通報服務(wù)狀態(tài),增強用戶對服務(wù)的信任感。
未來展望
- 啟用CN域名:考慮啟用CN域名以減少國際管轄風(fēng)險,提升域名安全性。
- 加強國際合作:與國際網(wǎng)絡(luò)安全組織和域名注冊商加強合作,共同應(yīng)對域名安全風(fēng)險。
- 提升技術(shù)實力:加大研發(fā)投入,提升云服務(wù)的穩(wěn)定性和安全性,為用戶提供更優(yōu)質(zhì)的服務(wù)體驗。
對比分析總結(jié)
阿里云核心域名aliyuncs.com此次大故障事件,不僅暴露了阿里云在域名安全管理方面的不足,也引發(fā)了關(guān)于域名國際管轄風(fēng)險的討論。通過對比分析,我們可以看到阿里云在恢復(fù)速度和應(yīng)對措施方面表現(xiàn)出色,但在預(yù)防機制方面仍有待加強。未來,阿里云應(yīng)進一步加強域名安全管理,提升技術(shù)實力,為用戶提供更優(yōu)質(zhì)的服務(wù)體驗。同時,我們也期待阿里云能夠與國際網(wǎng)絡(luò)安全組織和域名注冊商加強合作,共同應(yīng)對域名安全風(fēng)險,為云計算行業(yè)的健康發(fā)展貢獻力量。
Q&A
Q1: 阿里云此次故障對用戶業(yè)務(wù)造成了哪些具體影響?
A1: 阿里云此次故障導(dǎo)致對象存儲、CDN等核心服務(wù)無法正常使用,大量用戶業(yè)務(wù)中斷,知名技術(shù)社區(qū)cnblogs全國訪問癱瘓,大量企業(yè)級應(yīng)用陷入“404地獄”,業(yè)務(wù)損失難以估量。同時,由于DNS緩存的存在,海外用戶的解析恢復(fù)更為緩慢。
Q2: 阿里云采取了哪些措施來恢復(fù)服務(wù)并防止類似事件再次發(fā)生?
A2: 阿里云在發(fā)現(xiàn)故障后迅速響應(yīng),緊急修改DNS并啟用備用導(dǎo)航以盡快恢復(fù)服務(wù)。同時,阿里云加強了域名安全管理,提升了應(yīng)急響應(yīng)機制,并計劃啟用CN域名以減少國際管轄風(fēng)險。未來,阿里云還將繼續(xù)加大研發(fā)投入,提升云服務(wù)的穩(wěn)定性和安全性。

5 條評論