Skip to content

Instantly share code, notes, and snippets.

@popowa
Created June 24, 2016 06:15
Show Gist options
  • Star 0 You must be signed in to star a gist
  • Fork 0 You must be signed in to fork a gist
  • Save popowa/10f9003aecfbf6606d3c4f472e28bbca to your computer and use it in GitHub Desktop.
Save popowa/10f9003aecfbf6606d3c4f472e28bbca to your computer and use it in GitHub Desktop.
Datadog Agent
- ソフトウェア
- ソースコードはGithub
- プロキシーがある場合は設定が必要
- オープンソース
- 開けておくべきポート: 17123/tcp, 17124/tcp, 8125/udp
要素
- Collector: 一般的なシステムメトリックスを習得(CPUやメモリ、インテグレーション情報等)
- Dogstatsd: アプリケーションやコマンドラインスクリプトからカスタムメトリックスを送信するstatsdのサーバ
- Forwarder: 上記二点からデータを受け取りqueueの順番にしたがってDatadogに送信する
1つのスーパーバイザープロセスプロセスで制御されている
メトリックスに関してはMetrics Explorerで見るのがよい
サービス概要
- インテグレーション(随時追加されている)
- ホストリスト表示
 https://app.datadoghq.com/infrastructure
 ホストに対して役割や設定についてのタグを自動付与、もしくは任意に付与する事が可能
- Host Mapの表示
 https://app.datadoghq.com/infrastructure/map
 用途:全体像の可視化による状況把握
 異常値の検知、利用パターンの検出、リソース利用の最適化
- イベントの時系列表示
 https://app.datadoghq.com/event/stream
時系列にイベントを一覧で見ることが可能
イベントにコメントを付けたり、フィルタリング機能がある
インシデントに対して、関係者とコミュニケーションを取るための手段(メールやSNSへの通知、コメント、プライオリティの変更、似たインシデントの閲覧などが可能)
Datadogサポートチームへの連絡
- アラート設定
 https://app.datadoghq.com/monitors#/manage
特定のメトリックスの集計がしきい値を超えた場合に通知する機能
- 平均値、最大値、最小値、合計値
設定方法
- メトリックスの指定(リソースの指定可能)
- メトリックスの変化量に関するアラート設定(しきい値より高い、低い、発生期間、周期など)
- 単一発生か、条件発生か
- アラートの自動解除(指定期間メトリックスの変化がなければ、アラート解除する等/既存環境との兼ね合いにて決定する事)
- アラートメッセージの設定
- アラート送付先の設定
モニター機能
- Status: 各Agent checkはホスト上で実行されOK/Warning/Critical のステイタスをDatadogに送信する
- Check: 各Agent Checkの事で、複数のステイタスを送信する
- Monitor: Agent Checkのステータスやメトリックスのしきい値の確認手順、その他のアラート条件を元に通知を送信する
- Monitorタイプ: host-, metric-, integration-, networkbase, customがある
ホスト、メトリックス、インテグレーション、プロセス、ネットワーク、カスタムチェックを基準にアラートを送ることが出来る作成可能
テンプレートについて
タイムボード:トラブル解決用として利用。時間軸で複数のメトリックスなどを見る
スクリーンボード:状況把握とデータの共有
Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment