HDDエラーですと(--;)

さて、そろそろ寝ようと思ったら会社携帯に1通のメールが・・・

とある商店街のWiFiSNS認証用実証実験で動かしてるサーバでRAIDのエラーが発生したと通知するメールだった。

ふー(--;)

データセンターなら朝一で入館して対応したら良いのだけど、商店街の事務所に置いてあるので勝手には入れないし連絡とかも面倒。

さて、どうしたものか・・・

 

実は・・・このサーバは管理サーバに対してSSHのトンネルを張るスクリプトが動かしてあって、あるWEBサイトで接続ボタンを押せばリモートで入れるようになる。

うむ、備えあれば患いなしだね。

なので、ルータとかファイアウォールとか設定変更せずに繋がるんだな(笑)

 

さて、RAIDは3wareのRAIDカードを使ってるのでtw_cliというコマンドで情報を観たり設定したりできる。

 

 

3ware 2ポート PCI-Express対応 SATA II RAIDカード KIT 9650SE-2LP Kit

3ware 2ポート PCI-Express対応 SATA II RAIDカード KIT 9650SE-2LP Kit

 

 

 

まずは構成を確認

tw_cli show

 

Ctlに表示されてるCxがコントローラID

 

次にコントローラの情報を表示

tw_cli /cx show

 

Unit情報とPort情報が表示される

今回はPORT1がエラーになってたので以下のコマンドで一旦RAIDから外す

tw_cli maint remove cx p1

 

次にそのままのHDDでREBUILDをかけてみるので外したHDDを再度RAIDに認識させる

tw_cli maint rescan cx

 

HDDが正常に認識されたらREBUILDを実行する

tw_cli maint rebuild cx uo p1

 

REBUILDの進行状況を確認する

tw_cli /cx show

 

UnitのStatusがREBUILDINGとなって、%RCmplが徐々に増えてる事を確認

無事にREBUILDが完了したらOK!

 

 このまま無事にREBUILDが完了してたら、それはそれでよかったんだけど・・・これを書いてる途中でREBUILDのエラー通知がやってきたのでHDDのどこかのセクターにエラーがあって本当に使えないんだろうな。

 

実証実験だから片肺だけで良いかなぁ・・・って、いつまで実証実験するんだろうかね??

 

やっぱり実証実験だからRaspberry Piとか稼働部品の少ないのにしておけばよかったかな(^^;)