cheezecake @Wiki

Webサーバの不調

最終更新:

匿名ユーザー

- view
だれでも歓迎! 編集
うちの事務所のWebサーバが不調で、電源が時々切れるようになった。
気づいたときに起動しようとするが、電源ボタンが反応しない。
だいたい、Webを更新する担当の人が、サーバが止まっていると報告してくる。そのときすでに数日停止していたりする。Webサーバの意味ないじゃん。。。

その修理の記録。

症状1:電源ボタンが反応しない
停止中に、以下の症状が現れる。
  • 電源ボタンを押しても、電源が入らない。
  • 三角プラグを抜いて、再度差し込んでも、電源が入らない。
  • ファンは回っていない。
  • ハードディスクの動作音も確認できない。
  • 電源ランプは点いている。
  • 電源ボタンの長押しの強制終了は反応しない。
解決策
  • 三角プラグを抜いて、10秒以上おいてから、差し込む。
これで電源が入るようになった。

症状2:また停止する
電源を入れて、各サービスが立ち上がったあと、また停止する。
以下の仮説を立てた。
  • ウイルスやクラッキングの可能性
  • CPUの熱暴走
以下の手順で切り分けた。
  1. ウイルスやクラッキングの可能性を切り分けるために、停止した場面に注目する。しかし、起動から30分後や3分後など、特に定まった場所で停止するわけではないので、切り分けはできない。

  1. クラッキングを切り分けるために、LANケーブルを抜いてみた。外部からリアルタイムでコマンドを送られているという仮説が棄却される。果して、また停止したので、仮説は棄却された。

  1. ウイルスを切り分けるために、BIOS画面で放置してみた。果たして、また停止したので、ウイルスではない。

  1. CPUの熱暴走を切り分けるために、BISO画面のハードウェアモニタを使用した。とてもよくできている。ファンの回転数なども1秒おきに報告される。BIOS画面では、CPUの温度は29度と出ている。40度か50度になると心配になるが、これでは、ほとんど動いていない状態。熱暴走は棄却された。

さて、万策尽きたように思える。原因がまったくわからない。不特定の場所で停止するので、なんらかのハードウェア障害ということは分かる。

新たな仮説: HDの熱暴走により、BIOSが強制終了させた。
この仮説は、自分で考えたのだが、眉唾ものだ。HDに温度計なんて付いていたかどうか。おそらく付いていない。温度計付きのHDなんて聞いたことがない。しかし、熱くなったHDが、予想外の動きをして、BIOSが付いていけなかった可能性もある。少しHDを冷ましてから、電源を入れることにした。

冷房がきいている事務所で1時間ほど放置。サーバ室はちょっと暑いから、その劣悪な環境で熱暴走したのかもしれない。実際、触れないほど熱い。
1時間冷ますと、HDは人肌くらいに冷めている。ここで電源を入れてみた。
入る。30分ほど待って、問題が起きないので、一時的な復旧とし、帰ることにした。

さて、翌日。果たして、Webサーバは生きていた。いったんHDを外し、所定の場所に収め、半開きだったケースを完全に閉じた。これで復旧。

と思ったのも束の間。

また停止する。なぜだろう。HDの温度は、一晩じゅう付いていたときの温度と同じはず。

2台あるHDを、それぞれ見ることにした。幸い、HDはRAIDでミラーリングしている。片方ずつ付けて、問題が起きないかどうか見た。結果、一方のディスクでは、起動10分以内に必ずシステムが停止することがわかった。もう一方では停止しない。というわけで、一件落着。

と思いきや、はて、また停止する。なぜだろう。問題のあるHDは、ケーブルも電源もつないでいない。中に収めているだけだ。いよいよ意味がわからなくなってきた。

どちらのHDが問題があるのかわからなくなってきたので、調べ直すことにした。片方ずつにケーブルと電源をつないで、起動してみる。一方は停止しなかった。もう一方は、停止した。しかし、何度か再検査してみると、下に置くHDで必ず問題が起きて、上に置くHDでは問題が起きないということだった。

ここで仮説: 電源またはケーブルに問題がある。

さて続きは気が向いたら。

タグ:

+ タグ編集
  • タグ:

このサイトはreCAPTCHAによって保護されており、Googleの プライバシーポリシー利用規約 が適用されます。

目安箱バナー