監視と運用

システムを効率よく監視する

システムがのどような状態にあるのか監視しておく必要がある。

監視の目的

1.システムの定常状態を観察する
2.システムの障害の兆候を発見する
3.システムの拡張の時期を知る
4.障害をいち早く発見する

ping監視

pingコマンドと同様の機能(ICMP echo request/echo reply)
ネットワーク上の他のノードが稼働しているのか検査する。

プロセス監視

ソフトウェアの動作に必要なすべてのプロセスが正常に動作しているかを検査する。

ログ監視

ログを監視、エラーメッセージなどを監視する。

各種指標

システム動作
1.CPU
2.負荷状況
3.プロセス数
4.ログメッセージ

リソースの利用
1.データ数
2.ネットワークインターフェースの通信料
3.メモリ使用量
4.SWAPの使用量
5.ログメッセージ

ソフトウェアの利用
1.利用料
2.ソフトウェアのプロセス数
3.ログメッセージ

コマンド

iostat
ディスク I/Oの利用状況を確認するためのコマンド

top
CPUのプロセスをリアルタイムで表示する

netstat
ホストのネットワーク接続状態やソケット/インターフェイスごとのネットワーク統計などを確認する

sar
CPUやネットワーク、メモリ、ディスクなどのシステム情報を確認・出力できる

SNMP

Simple Network Management Protocol。
ネットワーク内の様々なサーバを集中的に管理する
管理される側をSNMPエージェント。
管理する方をSNMPマネージャという。

SNMP監視

SNMPエンージェントガ管理情報を各サーバのMIBに保存して、マネージャが主計する。

SNMPマネージャ

ネットワーク上の様々な機器やサーバのSNMPエージェントカラシステム情報を取得する。
MRTG,Cacti、Zabbixなどが有名。

SNMPエージェント

対象の機器やサーバにSNMPエージェントが導入されている必要がある。

MRTG

Multi Router Traffic Grapher。
SNMPマネージャの実装。
SNMPエージェントから取得した情報を保管し、グラフで表記し、HTML形式のページとして出力する。
LInuxでのSNMPエージェントの実装としてはNET-SNMPが使われる。

異常状態への対応

システム全体の状況を把握する必要がある。

ITILにおける障害対応

インシデント管理
インシデント管理で求められるのは、まず早急に対応すること。
また、問い合わせに対して適切に答えられるためにシステム状況を把握してあることです。
インシデント管理プロセスで対応困難なものは、問題管理プロセスに依頼する。

問題管理
システム障害などを機に、原因の追求が必要と判断したものを問題点として管理する。
ユーザに提供しているドキュメントやシステム自体に変更が必要であれば、変更要求を発行して、変更管理プロセスに依頼する。

変更管理
変更による障害発生リスクや業務への影響度を考慮にいれて変更内容の審議と変更計画の立案を行う。

リリース管理
システムに対する実装計画をたてます。

構成管理
管理の対象となっているシステムの構成情報を管理します。

インシデント管理プロセスフロー

1.インシデントの検出
2.分類、初期サポート
3.調査、診断
4.解決、復旧
5.インシデントのクローズ
6.オーナーシップ、監視、追跡、コミュニケーション

統合運用管理ツール

1.ハードウェア監視
2.ネットワーク監視
3.OSリソースカンシ
4.プロセス監視
5.ログ監視
6.アプリケーション監視
7.サービス監視
8.イベント監視

商用
JP1
Systemwalker
WebSAM
SenjuFamily
Tivoli

OSS
Hinemos