解決済みの質問
予期せずサーバが停止した場合の原因究明方法
先日、サーバが予期せずに停止しました。
再発防止のために原因究明をおこないたいのですが、どのような方法がありますでしょうか?
また、原因としてどのようなものが考えられるでしょうか?
現象としては次のような状態です。
・サーバーから応答が帰ってこなくなった。pingを打っても反応なし。
・(ハードはデータセンターに預けてあるので)連絡して、ランプ確認をしてもらったところ、Powerランプは点滅状態(スタンバイ状態)、ステータスランプは消灯状態だった。
・この状態のまま、モニタ・キーボードを接続したが画面上にはなにも表示されなかった。
CDのイジェクトボタンを押したらトレイは出てきた。
・電源ボタンを長く押したところ、電源が切れた。
・再度電源を投入したところ、ディスプレイには起動メッセージが表示され、起動できた。
その起動の際に、sda5のパーテーションのinodeをクリアしているようなメッセージが表示された。
機器構成などは以下のとおりです。
サーバー:NEC Express5800/R120a-1
CPU:Xeon E5520 × 2(2CPU)
メモリ:4GB
内蔵ディスク:146.5GB × 2(RAID-1)
OS:Redhat Enterprise Server releaqse5.1
原因究明・対応のとっかかりでも教えていただければ幸いです。
投稿日時 - 2010-02-10 08:57:37
とっかかりとして。
・停止した時に誰かログインしていたか。何か作業をしていたかを確認。
・/var/log/以下のファイル(特にmessages)でその時間帯に何か記録されていないか確認する。(ハードウエアエラーとか、アタックの形跡とか)
・sda5がどこにマウントされるデバイスか知りませんが、HDDに何らかのエラーが出ていた可能性は濃厚です。RAIDユーティリティをインストールしていると思いますので、HDDエラーがないか確認する。Expressをお使いなら保守に入っているでしょうからサポートデスクに連絡、問い合わせる。HDD故障なら無償で交換できます。
・kernel panicなどOSのエラーが疑われる場合はRedHatに問い合わせる。
・coreファイルを探してみる
投稿日時 - 2010-02-10 10:31:20
お礼
回答ありがとうございます。
1)ログイン&作業
停止時にログインしての作業はないはずです。サーバとしてのWebアプリの動作はおこなわれていました。
2)ログ
当日は13:40ごろ停止し14:30ごろ再起動したのですが、messagesを見たらその日のログは、再起動直後からしかログは残っていませんでした。
他には、cron、secure、Apacheのaccess.log、error.logなどを見てみましたが、停止時に通常時と違ったようなログは無いように見えました。
3)HDDエラー
・自分ではRAIDユーティリティーというものを余り意識していなく、インストールされているか否かがあいまいなのですが、後ほど確認してみます。
・保守については、正直なところNECのサポート体制がよく理解できず Club Express -> PPサポート と問い合わせして 蹴られたところです。(PPサポートは、Linux サービスセット Liteでの登録だったため、障害対応はダメとのことです。)
後ほど、ハード系の窓口に問い合わせしてみようと思います。
4)kernel panic
単語としては聞いたことがあるのですが、Linuxで実際に目の当たりにしたことがないので、パニックになったのかどうかが判断つきかねています。
5)core
findで検索をしてみたところ、再起動した時刻に「./dev/core」というものが作成されていたようです。coreについても、自分で対処したことがなくどのように扱ったものかわかりかねている状態です。
非常に参考になりました。
もし、この回答からなにか推測できることがあったら教えていただけると幸いです。
ありがとうございます。
投稿日時 - 2010-02-10 11:24:16
2人が「このQ&Aが役に立った」と投票しています
ベストアンサー以外の回答(1件中 1~1件目)