昨日のAmazonのサーバー障害は、
ロードバランサーが「お前、動いていないんじゃない?」と誤認し、
顧客が設定したルールに従って監視システム経由で再起動命令を出す。
でも実際にはフリーズもしていないサーバーが、なぜか再起動されてしまう。
仮想サーバーなので再起動も一瞬。
「まだ立ち上がってないぞ、もう一度再起動してみよう!」
──そんな無限ループ状態になっていたようです。
そのため、ロードバランサーを使わない構成のサーバーは無事で、
大手のサービスほど一気に沈んでいった、というわけですね。
私も15年ほど前、自前サーバーでロードバランサーを組んでいましたが、
最後のほうはトラブルが頻発して……今のようにAIに相談できる時代じゃなかったので、本当に大変でした。
今回の件で「AWSって危険なのでは?」と思う人もいるかもしれませんが、
正直なところ、単独サーバーも危険がいっぱいなんですよね。
それに加えて――
AWSは便利だけど、あまりに仕組みが複雑で“使いこなすのも怖い”、
そんな側面が改めて見えた気がします。
ここまでやっておけば、障害は減らせた。
データベースは、Google,でも、AWSでもいいけど。
一次側(ロードバランサー)・二次側(処理サーバー)は、複数の仮想サービスを使った方が本来はいいんですよね。
データベースだけは、分散は難しいかもだけど…
筆者:かぴばら
投稿日:2025年10月21日 (火) 18時17分 [no.29635]
投稿日:2025年10月21日 (火) 18時17分 [no.29635]