Google Cloudの障害はコード更新ミスと保護機能の欠如が原因
Google Cloudは先週の大規模障害が、サービスコントロールシステムのコード更新ミスと、エラー処理や機能フラグ保護の欠如に起因したことを明らかにした
最新の更新
Google Cloudは、先週発生した広範囲なサービス障害が、サービスコントロールシステムのコード更新ミスによるものであることを認め、その結果、エラー処理が不足し、機能フラグ保護が欠如していたため、グローバルなクラッシュループを引き起こしたと説明しています。
同社の報告によると、Google CloudのAPIやGoogleのAPIは、Google API管理および制御プレーンを通じて提供されており、これらのプレーンは地域ごとに分散しており、各APIリクエストが承認されているか、ポリシーや適切なチェック(クオータなど)が満たされているかを確認する責任を担っています。
問題となったのは「サービスコントロール」と呼ばれるポリシーチェックシステムのコアバイナリで、5月29日に新機能が追加され、追加のクオータポリシーチェックを有効にするためのコード変更が行われました。このコード変更とバイナリのリリースは、地域ごとに展開されましたが、失敗したコードパスは、ポリシー変更が必要であり、そのコードをトリガーする変更が行われるまで実行されることはありませんでした。
Googleは、この障害の原因としてコード更新の不備と、通常の保護機能(エラー処理や機能フラグ)が欠如していたことを挙げ、今後の改善策を講じると述べています。
好きかもしれない
- 米国でソーシャルメディアがテレビを抜いて主要なニュース源に
- インテル、リストラの一環として最大1万人の工場労働者を削減へ
- オランダの医療技術企業Hy2Care、軟骨修復インプラントの臨床試験に向け450万ユーロを調達
- iOS 26のメッセージアプリに自動翻訳機能と投票機能が搭載予定
- Google、AWS、Cloudflareなど主要サービスが世界的な障害に直面
- Google、AndroidでのNextcloudファイルアップロードをブロック:セキュリティを理由に
- アップル、App Storeのリンク規制解除命令の差し止め申請を却下される
- フォートナイトが米App Storeに復帰:Appleとの長年の争いの末