ロックステップ機能

 サーバ機(例えばNECのExpressサーバ、これは現在、日本で市場ナンバー1です)が普通のPCと違うのは、信頼性だろう。例えば、メモリーはECCメモリ(エラー訂正機能を持っている)を採用している。
つまりRASに優れている。

 ロックステップ機能・・・同じコアで同じ動作をさせ、結果に違いがあればエラーが発生したことがわかる。
 TMR(Triple Modular Redundancy)…三台のプロセッサに同じ計算をさせて多数決を取る。

 またNECのブレードサーバでは、上記の様なチェック機能により、異常を検出した際、端子やケーブルをよけてメンテナンスする難しさを回避するために、メインボードにプロセッサ、制御用LSI、メモリをまとめて搭載し、バックプレーンに複数枚挿すことにより活性挿抜ができるように設計してある。
 これにより、他のプロセッサに処理を依頼して外したいボードをオフラインにし、新品のボードと交換してオンライン指示を出す。これは保守性、可用性に関わる。

 このように信頼性を高めたサーバでも万が一故障した場合に備え、同じ構成のサーバを複数台用意して運用系と待機系に分けることにより、片方が故障してもまったくサービスを止めることなく切り替えることができる。

 あとは保守サービスの体系だ。常に保守要員が24時間監視し、問題があれば即対処するというのは汎用機でよくあるサービスのひとつである。安さがウリのUNIXサーバ、IAサーバではスポット保守といって必要なときに呼び出して交換対応してもらう。

 参考資料( http://keisanki.at.webry.info/201106/article_5.html
      http://jpn.nec.com/index.html )

コメント