ML チームの takuji です。
今回は Datadog Summit Tokyo に行ったので、その感想を書きたいと思います。
午前には企業の基調講演があり、午後にはワークショップが3つ用意されていました。
午後のワークショップは、事前に申し込んだ「APM と分散トレーシング - 高品質なソフトウェアの提供」に参加して、APM の使い方などを学んできました。
企業の基調講演(一部抜粋)
- NTT Docomo - Datadog ダッシュボードで見える化する、新たなビジネス価値創造のチャンス
- 動画のリンク:https://youtu.be/CU-eEaZER3o?feature=shared
- 問題を追求できる・意味のあるデータで整理整頓するモチベでダッシュボードが作られているのは良さそうでした。
- 大事なのは「サービス改善」に繋げることなので、目標達成に貢献できているかをユーザストーリーで可視化して UX が損なわれていないかをチェックして、良いサイクルを回していける工夫がありました。
- ONE CAREER - 開発チームと歩むSLO監視文化の立ち上げジャーニー
- 動画のリンク:https://youtu.be/DJcuQQ91mgE?feature=shared
- 周りを巻き込んだ SLO 運用のお話は貴重でした。SLO 監視と違反対応の優先度が高まらなかった課題から人事評価指標に組み込む技は納得感がありました(それを採用できたのは経営陣が SRE や SLO を尊重しているからだと思ったりしました)。
- ユーザ行動 (User Journey) をもとに CUJ (Critical User Journey) を見定めて、ユーザ体験において重要な箇所 (大事なエンドポイント) を SLI として定める考えは良さそうでした。
- Degica - Workflow automation によるインシデント原因調査の自動化
- 動画のリンク:https://youtu.be/UY5jAhIavsw?feature=shared
- "one monitor, one runbook"という考え方を採用して、インシデント発生時、原因究明にかかる時間を最小限に抑えることで、全体の解決時間を大幅に短縮できるという点に強く共感しました。
- ここでいう runbook とは、インシデント対応の手順書のようなものです。具体的には、問題が発生した時にどのメトリクスを見るべきか、どのダッシュボードを見るべきか、それがこの値だったら誰に連絡するかが書かれているドキュメントのことです。
- 興味深かったのは、Workflow Automation を活用した自動化の実例です。以下の流れで、インシデント対応の初動を自動化できるとのことでした。
- アラート発生を起点に自動処理が開始
- APM の Span 情報から問題のエンドポイントを特定
- 支払い認証エラーの場合:
- Span のカスタムタグから決済手段(クレジットカード等)を確認
- データベースと連携し、ユーザーのカード情報に関連するエラーかを判断
ワークショップ
- APM と分散トレーシング - 高品質なソフトウェアの提供
- 説明を聞きつつ作業するというより、個人でチュートリアルを進めながら、わからない点があれば適宜聞くスタイルのワークショップでした。
- Datadog Learning Center という学習サイト上でコンテンツを開いて、環境が作られるので画面に出てくる VSCode で実際にコード編集したり、ターミナルでコマンドを打ったりして進めました。
- 今回用の Datadog アカウントも用意されるので、トレースできているかを Datadog 上で確認したり、レイテンシが閾値を超えた場合にアラートする設定を体験しました。
- 補足
- Datadog APM を使い始めるために Datadog Agent をインストールする手間が発生する訳ですが、 1行のインストールコマンド実行で済むので楽チンです。
- 説明を聞きつつ作業するというより、個人でチュートリアルを進めながら、わからない点があれば適宜聞くスタイルのワークショップでした。
まとめ
- 初めてオフラインの(大規模な)勉強会に参加したので、人疲れで結構大変でした笑。
- Datadog の社員さんと会話して、Flex Logs という新機能の費用であったり、Notebooks にスナップショットを無料で残せるといったテクニックも教えてもらいました。
- 基調講演やワークショップを受けて終わりというより、普段から Datadog を仕事で使って気になったことを解決する時間にもなる得るので、気になることは普段からメモしておくと、ここで解決できるかもしれないです。
- Datadog は問題を追求できる・意味のある形でダッシュボード を作れるので、ログとダッシュボードを Datadog に統一できたら最高かなと思ったのですが、弊社だと、Redash や Quicksight をガッツリ使っており、現実的には難しいところだなと感じました。