利用用途
東京海上日動火災保険株式会社を中心とした東京海上グループのIT戦略を支える中核企業である東京海上日動システムズ株式会社(以下、東京海上日動システムズ)では、クラウドシフトを進める基幹システムのオブザーバビリティをNew Relicで実現しシステム監視の高度化に役立てている。
New Relicの選定理由と成果
- クラウド化やアプリケーションの疎結合化の開発、運用の効率化を、監視の高度化でさらに効率化
- IT基盤の状態とアプリケーションパフォーマンスの可視化で障害原因の切り分けをスピードアップ
- 障害調査の効率化と調査品質の高いレベルでの均一化を同時に実現
利用製品
・New Relic APM
・New Relic Infrastructure
・New Relic Logs
・New Relic Synthetic Monitoring
東京海上日動火災保険株式会社や東京海上日動あんしん生命保険株式会社を中核とし、国内外において損害保険・生命保険事業や金融・一般事業を幅広く展開している東京海上グループ。そのIT戦略の中核を担っているのが、東京海上日動システムズだ。
同社では現在、東京海上グループが経営戦略の柱の1つとして掲げる「デジタルトランスフォーメーション(DX)による価値創造」を重要なミッションとして担い、顧客満足度の向上や顧客接点の強化に軸足を置いた「SoE(System of Engagement)」と、基幹業務を支える「SoR(System of Records)」、そしてデータ分析のための「SoI(System of Insight)」という3つの領域のシステムに関して拡充・変革を推し進めている。
このうちSoRに関する変革の大きな方向性として定められているのがIT基盤のクラウドシフトだ。その取り組みについて、東京海上日動システムズ ITインフラサービス本部インフラソリューション二部 課長の水関 謙氏は次のような説明を加える。
「保険契約の管理システムを中心とする東京海上グループの基幹システムは、規模と数が増大しており、それに伴う運用負担も大きくなっていました。システムの効率的な運用を目的に、基幹システムのIT基盤を可能なかぎりクラウドへとシフトさせる取り組みを2019年度から推進しています。また、IT基盤のクラウドシフトと併せて、基幹システムの開発・改変スピードを向上させるために、APIを使ったシステムの疎結合化も図っています」
水関氏によれば、既に重要な基幹システムの一部がクラウドで稼働しており、今後も基幹系のSoR領域におけるクラウドへの移行を拡大していく予定であるという。その中で、システム運用のさらなる効率化実現のために、自動化や監視高度化に向けて、同社が新たに導入したのが、オブザーバビリティを実現するNew Relicである。
New Relicは業界を代表するオブザーバビリティプラットフォームであり、デジタルサービスにおけるあらゆる重要指標の「観測」を可能にする。アプリケーション、インフラ、ユーザー体験の観測を通して、障害やサービスレベルの低下、潜在的な問題・ボトルネックを可視化する機能は業界随一との評価を得ている。
オブザーバビリティで問題検出・原因特定のスピードアップを目指す
東京海上日動システムズ ITインフラサービス本部がオブザーバビリティソリューションの導入で目指した変革は基幹システムに対する監視を高度化させることだ。
「IT基盤のクラウドシフトやアプリケーションの疎結合化が進んでいくことにより、システム全体の状態がとらえにくくなり、何らかの障害が発生した際に問題原因の切り分けにこれまで以上の工数や時間を要する懸念がありました。その問題を解決する一手としてオブザーバビリティのソリューションを導入し、監視を高度化させようと考えました」(水関氏)
水関氏と同じITインフラサービス本部でインフラソリューション三部の担当課長を務める松元 良太氏によれば、旧来における基幹システムの監視と問題原因の調査プロセスは、人手に頼った作業が多く、更なるスピードアップが必要であったという。
例えば、何らかの基幹システムに障害が発生し、その一報を基盤担当が受けた場合、速やかに障害管理担当に連携の上、サービス復旧を最優先に関係するアプリ担当と基盤担当が集合し影響範囲の特定と調査方針の決定を行う。当調査方針に基づく原因特定と対処については、当該システムにおけるアプリ担当と基盤担当がそれぞれの所管のログなどを調査することから始まる。その後、アプリ担当と基盤担当のそれぞれの観点での調査結果を共有し、そこで得られた被疑箇所の情報より、それぞれの観点でさらに詳細な調査を行う、といった形で進められている。
「こうしたプロセスは担当者に大きな負担をかけるものであるうえに、基盤担当とアプリ担当のコミュニケーションにも相応の時間を要することになります。加えて言えば、基幹システムの構成を良く知り、かつ、相応の技術スキルと経験をもった担当者でなければ、障害原因の迅速な特定や対処が難しいといった問題も内包しています」と、松元氏は語り、こう続ける。
「クラウド化やアプリケーションの疎結合化によって基幹システムの複雑性が増すことが想定され、IT業界全体で人材不足が進行する中、システム障害の検知・調査の効率化や属人性の排除を進めなければ、システムの安定稼働に支障をきたすリスクがあると感じていました。そこで、基幹システム監視のあり方を高度化させるソリューション、言い換えれば、ハイブリッド環境にあるIT基盤とアプリケーションの状態を包括的に監視し、障害の検知と問題原因の調査・特定の作業をよりシンプルに、かつスピードアップする手だてを探したわけです。その結果として行き着いたのがオブザーバビリティのソリューションであり、New Relicだったということです」
なお、オブザーバビリティのソリューションを提供する製品はNew Relicだけではない。その中から、New Relicを選んだ理由について水関氏はこう明かす。
「New Relicを選んだ理由の一つは、この製品が第三者機関の評価でリーダークラスにランクされていたことです。それら製品の中で、日本におけるサポート体制やサービスの品質やエンジニアのスキルレベルが高かったことです。選定にあたって機能的な比較も行いましたが、オブザーバビリティ製品は進化のスピードが速く、特にリーダークラスの製品内のその比較時点での優劣は短期間で差別化要素でなくなり、比較軸としてほぼ意味を成さないのが実状です。それよりも、日本におけるサポート体制が充実し、弊社内で広く恩恵を受けることが出来ることの方が重要だと考えました。その点でエンジニアのスキルレベルやサポート品質を含めたソリューションに優位性があるNew Relicが最適だと考えました」
また、利用するユーザーの数をベースにしたNew Relicの料金体系も魅力的だったと水関氏は指摘する。
「オブザーバビリティの仕組みは現場で使われなければ意味はなく、利用を促進するには観測可能な対象を十分に拡充し、収集するデータの量と種類をともに増やしていくことがカギとなります。その意味で、適用するサーバノード数ではなく利用ユーザー数をベースにした課金モデルを採用しているNew Relicは、観測可能な対象を拡充したうえで現場での利用促進を図っていく、弊社でのオブザーバビリティ向上の取り組み方にも適合していました」(水関氏)
IT基盤へのNew Relicの適用を「Ansible」で自動化
オブザーバビリティの価値を社内に訴求
New Relicの採用を決めた東京海上日動システムズでは2021年度からNew RelicによるIT基盤の観測を本格的に始動させ、のちにはアプリケーションパフォーマンスの観測をスタートさせた。また、2023年に入り外形監視にも取り組み始めたという。
このうち、IT基盤については基幹システムを支えるサーバのうち、現時点(2023年8月時点)ですでに数百台をNew Relicによる観測対象にしている。
「New RelicによるIT基盤の観測はエージェントをインストールするだけですぐに始められるので導入は非常に簡単です。加えて私たちは、IT基盤にNew Relicを適用する工数を、IT基盤構築を自動化するオープンソースソフトウェア(OSS)『Ansible』を使った取り組みも開始しており、当取組と連携して効率的な展開を行っています。東京海上グループの基幹システムを支えるサーバは全体で数千台に上りますが、今後も、自動化の仕組みを使いながら、New Relicによる観測対象を効率的に増やし、オブザーバビリティの有効性を社内に訴求しながら、その活用の深度と効果を高めていきたいと考えます」と、松元氏は言う。
同氏によれば、東京海上日動システムズでは、基幹システムにおけるオブザーバビリティを高度化させるステップを独自に定義しており、それに沿ってNew Relicの活用を進めているという。
そのステップとは、「これまで見えていなかったデータの収集と可視化の能力を高めて障害の検知、調査のスピードアップに役立てる」ということを第1ステップとして、のちにデータの分析能力を向上させ、さらにのちにはAI(人工知能)の活用などを通じて障害検知の自動化などを実現していくというものだ。
「現時点では、New Relicによって第1ステップへの移行が着実に進められており、一部のシステムはデータの活用分析も始まっています。実際、New Relicの活用によって、オンプレミスやクラウドに展開しているIT基盤の状態が、ネットワークのトラフィック量やアプリケーションの状態とセットでつぶさにとらえられるようになりました。これにより、システムトラブルの原因が、ネットワークにあるのか、アプリケーションサーバにあるのか、それともデータベースサーバにあるのかといった切り分けが簡単に行えるようになっています」(松元氏)
また水関氏は、New Relicの効果について次のように述べている。
「New Relicによるデータ収集と可視化の自動化によって障害発生の報告を受けたときに、さまざまなシステムからログを収集し、集計する必要がなくなります。また、New Relicのダッシュボードを、基盤担当とアプリケーション担当が共有するようにすれば、両者が同じ情報をみながら調査や対応できるようになります。このことにより、担当者ごとの障害調査のスピードや品質に大きなバラツキが出てしまうリスクが抑制できるというメリットがあります。さらに、システム障害の調査状況などを関係者への共有も簡易な方法で可能となります。つまり、New Relicを使えば、障害調査の品質を高いレベルで一定に保ちながら、調査の効率性・スピードをアップさせ、ひいては問題の速やかな解決を図ることも可能になるということです。この効果は非常に大きいと見ています」
New Relicを使った外形監視を行っているITインフラサービス本部 ITサービス管理部 担当課長、佐野 大樹氏は、その利点について次のように評価する。
「New Relicによる外形監視は、特定のサーバやサービスの監視だけではとらえられなかったような、サービス全体が問題なく動いているかの検知を可能にします。その外形監視の結果を、障害管理担当がいつでも確認できるようにすることで、利用者からの連絡や打鍵による確認をせずとも、サービス全体の状態をいち早く確認できるようになり、トラブル発生時の影響範囲の特定やスピーディで効果的な解決につながるはずです」
このような効果を狙い、東京海上日動システムズでは主要システムについて、その状態を表すダッシュボードを大画面に表示させて、障害管理担当が確認できるようにする試みも展開している。そのダッシュボードを障害管理担当のほか、基盤担当とアプリ担当の双方にも共有し、オブザーバビリティ向上によるメリットをより幅広く得られるように改善をしていく予定である。
New Relicを活用し、運用を高度化
先に触れたとおり、東京海上日動システムズにおける基幹システムのオブザーバビリティは、これまで見えていなかったデータを可視化し、社内でのNew Relicの利用を活性化させる段階にある。ゆえに今後は、New Relicの使用効果の高さを社内にアピールし、その活用を促進しつつ、有効活用のナレッジの蓄積やNew Relicの使い手の育成などに力を注いでいくと水関氏は言う。
「東京海上グループが使う基幹システムの数は多く、個々のシステムごとに基盤担当チームやアプリ担当チームがあり、それぞれのチームで協力会社の方に支援いただき開発・運用を担っています。そうしたチーム、組織の中からキーパーソンを集めて、New Relic活用のノウハウやナレッジ、スキルを学習したり、共有したりするための場を形成したいと考えています。これにより、基幹システムにおける障害対応やシステム改善のさらなるスピードアップに向けた監視・運用・開発の仕組みづくりや体制づくりが加速されるのではないかと考えています」
加えて松元氏はNew Relic活用の今後について次のような方針を示す。
「活用の最終的なステップとしてはAIによる障害検知の自動化を目指していますが、その実現は少し先の話になるかもしれません。ただし、データの分析力を向上させて障害検知の精度を高めたり、障害の兆候により早く気づけるようにしたりすることには積極的に取り組んでいくつもりです」
東京海上日動システムズにとって、オブザーバビリティのソリューションを導入するのは今回が初の試みであり、そのソリューションを組織の文化(仕事の進め方)にどう馴染ませ、活用の効果を上げていくかについては「いまだに手探りの部分がある」と水関氏は明かす。それだけに、New Relicの今後のサポートにも期待は大きいと同氏は指摘し、話をこう締めくくる。
「New Relicのエンジニアはスキルが高く、しかも当社のシステム環境などについて深く理解してくれています。そうしたエンジニアによるサポートは、オブザーバビリティソリューションの社内への定着と活用の高度化には欠かせないピースです。これからも変わらぬサポートを期待しています」