富士フイルムソフトウエア|「顧客志向」でWeb系サービスの品質を作り込むクラウドネイティブなエンジニア組織への変革

Business Challenge
Fujifilm Software

利用用途

Web系サービスの品質向上を目指し、ユーザー体験を観測して問題解決を迅速化するとともに、アプリケーション開発チームとインフラチームの効果的な情報共有のためにNew Relicを活用

New Relicの選定理由と成果

  • PaaSや外部サービス連携を利用するクラウド環境におけるトラブルシューティングの迅速化
  • ユーザー視点から遅延やエラーなどを把握しプロアクティブな対応を可能に
  • 障害対応ダッシュボードを「共通言語」とすることで開発チームとインフラチームの連携を強化
  • 顧客志向でWeb系サービスの品質向上を実現するためにSLI/SLOの制定・運用を目指す

利用製品

・New Relic APM
・New Relic Synthetics
・New Relic Dashboards
・New Relic Service Level Management(SLM)

 

富士フイルムソフトウエアは、ヘルスケア、フォトイメージング、映像、印刷・産業の各事業を支える基盤技術を担う富士フイルムグループ唯一の「事業横断的ソフトウエア開発会社」である。高度なシステム製品の中核ソフトウエアやWeb系サービスを支えるモダンなアプリケーションの開発から、ITインフラサービスの提供までその守備範囲は広い。ソフトウエア開発本部 ネットワークソリューショングループ 研究員であり、アーキテクトとして組織横断的な技術力強化を担う藤村信和氏は次のように話す。

「ネットワークソリューショングループは、B2BからB2Cまでお客様向けに様々なWebアプリケーションとサービス基盤を開発・提供するおよそ60名のエンジニアチームです。1,000台を超えるサーバーを運用していますが、主要なサービス基盤のクラウド移行はすでに完了しており、来年度中にすべてのWeb系サービスをパブリッククラウド上で稼動させる計画です」

富士フイルムソフトウエア 藤村様

ソフトウエア開発本部 ネットワークソリューショングループ 研究員 藤村 信和 氏

多様なWebアプリケーションの開発と運用は、富士フイルムの事業部門やグループ企業を主管として、ネットワークソリューショングループのアプリケーション開発チーム、同インフラチームが連携して行われる。3者が一体となって「顧客志向」でサービスを作り込むことに同社の強みがある。

「クラウドネイティブ技術を採用し、スピード感をもってモダンなコンテナアプリケーションを開発しています。また、インフラ側はIaaSだけでなくPaaSやマネージドサービスを積極的に利用しています。インフラからミドルウェアまでをクラウドに任せることで運用負荷を軽減し、お客様志向でより良いサービスとアプリケーションの開発に注力できるようになりました」(藤村氏)

クラウドネイティブへの取り組みは、ネットワークソリューショングループにメリットをもたらす一方で、監視・保守の面で新しい課題を生み出した。「コンテナアプリケーションのトレースの難しさ」や「インフラのブラックボックス化」が典型的な例である。オブザーバビリティプラットフォームNew Relicは、アプリケーションパフォーマンス監視とエンドユーザーの利用体験の観測を起点にこれらの問題を解決に導いた。

コンテナアプリケーションのトレースの難しさを解決

New Relicは業界を代表するオブザーバビリティプラットフォームであり、デジタルサービスにおけるあらゆる重要指標の「観測」を可能にする。アプリケーション、インフラ、ユーザー体験の観測を通して、障害やサービスレベルの低下、潜在的な問題・ボトルネックを可視化する機能は業界随一との評価を得ている。ソフトウエア開発本部 ネットワークソリューショングループ 研究員であり、アプリケーション開発チームのテックリードを務める吉原桂一氏は、New Relic導入の背景を次のように説明する。

「PaaSやサーバーレスの使用を前提にする場合、アプリケーション視点からコンテナの役割や利用するファンクションを決めていくため、この過程でインフラ設計が必然的に決まってきます。Web系サービスごとに固有のシステム構成となるため、異常な状態をどう定義するか、監視設計はどうあるべきか、監視ツールをどうするかを同じ視点で考えなければなりませんでした。こうした課題の解決に、New RelicのAPM(Application Performance Monitoring)が使えると考えたのです」

富士フイルムソフトウエア株式会社 吉原様

ソフトウエア開発本部 ネットワークソリューショングループ 研究員 吉原 桂一 氏

New Relic APMは、Webアプリケーションのレスポンスタイム、スループット、エラー率、トランザクションなどを可視化するとともに、ユーザー体験に影響するコードやコード間の依存関係をリアルタイムで特定できる。吉原氏らネットワークソリューショングループが求めていた「アプリケーション視点での監視」に最適な選択となったのである。そして、APMは「コンテナアプリケーションのトレースの難しさ」という課題にも解決をもたらした。

「小さなサービスが連携するコンテナアプリケーションでは、従来型のモノリシックなアプリケーションと比べて、問題発生時の原因特定が格段に難しくなりました。APIの不具合やスロークエリなども状況をいっそう複雑にします。New Relic APMは、アプリケーションプロセス全体を可視化して、トラブルシューティングの迅速化とサービスのより安定的な提供を可能にしてくれました」(吉原氏)

「インフラのブラックボックス化」という問題にもNew Relicは有効だった。ソフトウエア開発本部 ネットワークソリューショングループの石澤直也氏は次のように話す。

「PaaSやサーバーレスを利用すると、インフラリソースからOSやミドルウェアまでがクラウド事業者の監視範囲となり、これらを対象にしていた正常性監視が適用できなくなります。私たちの監視のアプローチを、インフラ視点から『エンドユーザーとサービスの視点』へと変えてくれたのが外形シナリオ監視でした。New Relic Syntheticsを利用してユーザーがどんな体験をしているかを把握することで、ブラックボックス化に起因する問題でも、あるいは原因が連携する外部のサービスであったとしても、速やかに不具合の発生を検知することが可能になりました。エンドユーザーから指摘される前に対処できるようになったことは非常に大きな変化です」

富士フイルムソフトウエア株式会社 石澤様

ソフトウエア開発本部 ネットワークソリューショングループ 石澤 直也 氏

開発チームとインフラチームの「共通言語」を確立

ネットワークソリューショングループは、大きくアプリケーション開発チームとインフラチームに区分される。システム監視と問題発生時の一次切り分けは主にインフラチームの担当領域だったが、New Relic導入以降はこの役割分担も変わりつつある。藤村氏は次のように話す。

「APMやSyntheticsから得られたメトリクスを『障害対応ダッシュボード』に集約し、開発チームとインフラチームが『同時に同じ情報を共有』しています。ダッシュボードでエンドユーザーの体感が遅くなっているような現象が一目瞭然にされ、開発エンジニアはアプリケーションの遅延を確認し、インフラエンジニアはデータベースの負荷が高まっていることを把握できます。New Relicのダッシュボードに集約された情報を『共通言語』とし、それぞれの視点を持ち寄って議論することで、原因特定から問題解決までの時間が大幅に短縮されました」

従来は、インフラチームが初期分析と問題切り分けを行い、エスカレーションされた開発チームが再び分析し、原因が特定できてからようやく改修に着手する――といったリレー方式の問題解決フローだったが、New Relicのダッシュボードを利用することで「同時並行方式のフロー」に変わったのである。

「コミュニケーションコストを削減できたことも大きな成果です。ログを整理してからメールで共有し、そこから何度もやり取りするような非効率はすっかり解消されました。これにより、あるシステムでは月あたり5人日、40時間の効率化を達成しています。また、New Relic APMを利用することで、インフラエンジニアがアプリケーションのエラーやコード上の不具合を指摘するようなケースも出てきました。一次対応のスピードは格段に速くなっています」(藤村氏)

SLI/SLO制定とSRE指向のモニタリングへ

New Relicのダッシュボードを主管部門と共有する試みも始まっている。主管部門にとっては、システムの安定稼働や優れたサービス品質がどれだけビジネスの成果に結びつくかが重要だ。

「主管部門・開発チーム・インフラチームが、共通の目標を持ってWeb系サービスの品質向上に取り組んでいけるよう、New RelicのService Level Management(SLM)を活用し、サービスレベル指標(SLI)/サービスレベル目標(SLO)を制定したいと考えています。New Relicのメトリクスとダッシュボードは、関係者全員が建設的な議論を行うための共通言語としても、SLI/SLOのスコアを評価しながらお客様満足度を高めていく場としても活用できるものと期待しています。すでに、定量化された数値をもって議論するような習慣ができ上りつつあります」と藤村氏は話す。

吉原氏が設計・開発をリードしたフォトイメージング領域のコンシューマー向けアプリケーションでは、サーバーレスやPaaSなどのクラウドネイティブ技術をフルに活用してMicrosoft Azure上からサービスを提供している。

「季節性ピークが明らかなWeb系サービスのひとつであり、システムの不調がそのままビジネス機会の損失につながるため、主管部門にとってもNew Relicが示す情報に対する関心が非常に高いプロジェクトでした。モダンなコンテナアプリケーションをビジネスクリティカルな環境に適用する環境では、New Relicのようなオブザーバビリティツールが不可欠であることを実感しています」(吉原氏)

顧客志向でWeb系サービスを磨き上げるネットワークソリューショングループのチャレンジは、New Relicの活用とともに進んでいる。藤村氏が次のように結んだ。

「クラウドネイティブ技術を使いこなしながら、お客様により良いサービスをお届けするためには、SRE(Site Reliability Engineering)の考え方がますます重要になると感じています。私たちがNew Relicを活用して得られた成果とノウハウを、ネットワークソリューショングループ全体のエンジニアの意識改革につなげていくことが次の目標です。New Relicには、クラウドネイティブ環境とのデータ連携機能のさらなる強化を期待しつつ、私たちのミッションを支え続けてくれることを願っています」