gayuu_fujinaの愚草記 (別館→本館)

はてなダイアリーが更新できなくなったので、泣く泣くこちらに移行。使いづらいようなら、別なサービスへの引っ越しも検討する予定。元ダイアリー:http://d.hatena.ne.jp/gayuu_fujina/

ファーストサーバ最終報告書、ベテラン担当者のマニュアル無視を黙認 -ITpro-

ヤフー子会社のファーストサーバは2012年7月31日、6月20日に発生した大規模障害(関連記事)についての調査報告書(最終報告書)を公表した(写真)。報告書は、ファーストサーバに利害関係のない3人の委員による「第三者調査委員会」(関連記事)が作成した。同社Webサイトに「要約版」を掲載している。
報告書は調査対象とする事故を、6月20日に発生した「第1事故」と、第1事故で消失したデータが想定外の場所に復元された「第2事故」(関連記事)の2つとしている。
(中略)
A氏だけはマニュアルに従わず、自作の「更新プログラム」を利用してシステム変更を行っていた。A氏は今回の事故発生時だけではなく、以前から独自の作業手順を実行しており、上長もこれを認識していながら容認していた。
(中略)
データ消失障害後に起きた「第2事故」について、報告書は「創業以来サーバー単体でのデータ消失の経験が無かった」ことなどから「データの消失を想定したマニュアルや手順書を作成していなかった」とした。
(中略)
報告書では、「比較的重度」という表現を用いているものの、全体としてファーストサーバの過失の程度を「軽過失の枠内」だとしている。
(後略)

http://itpro.nikkeibp.co.jp/article/NEWS/20120731/413084/

記事をタイトルと本文しか見ない人は、幸せになれない記事。
単なる待機系(クローン)を「バックアップ」と呼称していた「(本来的な意味の)バックアップ」が無いという致命的な状況が一番の問題だった。
しかも、そんな状況で「本番系」と「待機系」の同時更新なんてありえない運用をしていた時点で、個人レベル過失うんぬん以前。
というわけで、一次ソースである要約版に軽く目を通したが、やはりタイトルのような「ベテラン担当者」を生贄に仕立てるような話ではなかった。
例えば、「システム変更に関する社内マニュアルの存在」の項(4)

(4) なお、更新プログラムは、プライマリーディスクのみに適用され、バックアップディスクには適用されない。バックアップディスクのシステムは、更新後のプライマリーディスクが毎日6時30分に自動的にバックアップディスクにコピーされることによって更新される。

http://support.fsv.jp/urgent/pdf/fs-report.pdf

という文言は中間報告で言及されていた

システムを含むデータのバックアップは毎朝6時に取得しております。
しかしながら、脆弱性対策のためのメンテナンスはバックアップをしてあるシステムについても実施しておかないと、メンテナンス実施後にハードウェア障害が発生してバックアップに切り替えた途端に脆弱性対策が講じられていないシステムに戻ってしまうことが過去に発生し、脆弱性対策がなされていないシステムが動き続けていたという反省に立ち、脆弱性対策のメンテナンスに関しては対象サーバー群とそのサーバー群のバックアップ領域に対して同時に更新プログラムを適用するという構造に修正して実施しました。

http://support.fsv.jp/urgent/report.html

に真っ向から対立する。
後者を「A氏独自の作業手順」として問題視しているようだが、これは「マニュアル無視を黙認」というより「マニュアルの改訂が行われていなかった」というべき状況にしか見えない。
その意味でも、これをもって「重過失」としなかったのは「良心的」というか「当然」だ。
なので、発表ではA氏を生贄にしつつ、実際の処分を軽くしたという流れなのだろう。
そして、再発防止策については、問題のあった正副同時リリースというアホな運用の見直し、待機系ではなく、本来の意味のバックアップを追加するという「ある意味当然かつ真っ当な」対策を提示してるので、「本当にこのとおり対策されるなら」問題無いといえる。
とはいえ、タイトルと記事だけ見て「A氏が悪い」と理解する奴は多いだろうなぁ