Skip to content

Instantly share code, notes, and snippets.

@sugitk
Created January 27, 2018 11:20
Show Gist options
  • Star 5 You must be signed in to star a gist
  • Fork 0 You must be signed in to fork a gist
  • Save sugitk/49dbdf01799275225836e0a4b5b9431c to your computer and use it in GitHub Desktop.
Save sugitk/49dbdf01799275225836e0a4b5b9431c to your computer and use it in GitHub Desktop.
実践的運用設計チェックリスト
「運用とはそもそも何をする仕事なのかをきちんと理解して、日々業務を行えるようにする」という目的を掲げまして、
チーム内で勉強会をしたことがありました。
そのときに作ったチェックリストです。使えそうなら適当に加工してみてください。
・運用は何のためにするのか意識は合っているか
 - サービスを継続するための取り組み
  -- 機能の修正・改善
  -- バグの修正
  -- 性能の改善
  -- OS/ミドルウェアやアプリケーションのバージョンアップ
・開発から運用の流れ
 - 要求の取りまとめ
  -- サービス側から (新機能、外部サービスとの連携)
  -- 開発側から (保守性の向上、新しいミドルウェアへの対応)
  -- 運用側から (障害頻度の軽減、性能向上、可視化)
 - 開発項目の確定と優先度付け
 - リリース時期を確定
 - 開発、テスト
 - リリース
・システムの運用は何から始めるか (開発から引き渡された後)
 - サービスの把握
 - 構成の把握 (ハードウェア(仮想)、OS、ミドルウェア、サービス、アプリケーション)
 - 通信の把握 (ネットワークセグメント、IPアドレス、プロトコル、データ)
 - リソースの把握 (CPU、メモリ、ディスク、プロセス、ネットワーク)
 - 冗長性の把握 (想定する障害や高負荷、対策)
 - アクセス制御や権限の把握 (ユーザ、グループ、秘密鍵/公開鍵証明書、ドメイン名、期限)
 - ユーザ管理 (追加、削除)
 - 外部接続 (他サービス、アクセスキー、期限)
 - ログ (アクセスログ、エラーログ、アプリケーションログ、ローテーション、保持期間)
 - ベンダー情報 (サポートサイト、連絡窓口、ライセンス)
 - 構成管理 (上記全て)
・環境
 - 商用環境
 - ステージング環境
 - 開発環境
 - 環境差分の把握
 - リリース手順
  -- リリース対象を確定
  -- ステージング環境への配置、テスト
  -- 不具合の修正、再配置、テスト
  -- 商用環境への反映
・監視
 - 何の情報を取得するために監視するか
 - 障害が発生したときに何をするか
 - 監視設定は何を契機として見直すか
・ログ
 - ログの種類
  -- OSのログ
  -- サービスのログ
  -- ミドルウェアのログ
 - ログレベル (緊急度、詳細度)
 - 分析
  -- 入力、出力
  -- 処理の前後関係
  -- 頻度
  -- エラーコード
  -- キーワードでの絞り込み
  -- 統計的解析
・DB
 - バックアップ、リストア/リカバリ
 - パフォーマンスチューニング
 - リソース監視
 - 権限管理 (ユーザ、パスワード、権限付与、権限剥奪)
 - アクセス制御 (DB、スキーマ、表)
 - 初期化パラメータ
 - ログ
・ベンダー情報の追跡
 - バージョンアップ情報 (新機能、削除された機能、互換性)
 - 製品のロードマップ (チケットシステム、公開されたバグ情報、ソースコードの履歴管理情報)
 - 組織としての安定性 (買収、解散、放置)
・システムの更新
 - サービスへの影響を把握 (停止、縮退、想定時間)
 - 更新対象を把握 (サーバ、ネットワーク、設定、データ)
 - 作業に影響する監視の抑止
 - 更新作業を実施
 - 監視の再開
 - 構成管理への反映
・インシデント管理 (障害からの回復、サービス要求への対応)
 - 既知の障害かどうかの判断
 - 脆弱性の分析と対策
 - ベンダーへの問い合わせ
 - 対応履歴の管理
 - データの受け渡しと消去
・レポート
 - サービスからの要求
  -- バッチで作成して提供
  -- 要求を受けて随時作成して提供
 - 運用レポート
  -- サービスの利用状況
  -- リソースの利用状況
  -- インシデントの発生状況
  -- 稼働率
  -- ログ解析
  -- 状況の把握から
   --- 運用コストの見直し
   --- 設備投資の見直し
   --- 開発項目の優先度の変更
・以上を踏まえて、普段何をするか (運用メンバーの1日)
 - 日次
 - 週次
 - 月次
@sugitk
Copy link
Author

sugitk commented Apr 27, 2018

アカウント管理

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment