DataOpsという言葉をご存じでしょうか。DataOpsとは「データの収集・分析・活用・改善のデータ活用ライフサイクルを高速で回転しながら、ビジネスに持続的に貢献する」取り組みを指します。データ駆動型を目指す企業にとって、データ活用は欠かせない施策ですが、社内のデータを上手く実践できていない企業は多いです。
DataOpsを活用すると、社内のデータを分析する部門やデータを管理する部門・データを活用する部門などが協調しながら、データ活用を自動化・効率化することが可能です。データ活用の生産性を高める仕組みとして、いま注目が集まっています。
本記事では、DataOpsの定義や目的について解説し、データ活用の進め方や実現方法について解説します。
DataOpsとは?
DataOpsの定義と注目を集める背景
DataOpsを最初に使い始めたガートナー社の定義によると、「組織全体のデータ管理者とデータ利用者の間における連携と、データフローの統合、自動化に焦点を当てた手法。DataOpsの目標は、データ活用により迅速に価値を提供すること」とあります。
DataOpsはアジャイル開発、DevOps、人員、データ管理のテクノロジーを統合することにより、適切なデータを適切なタイミングで適切なステークホルダーに提供するデータフレームワークといえます。
データアナリストやマーケティング担当者、営業担当者に至るまで、データ駆動型を目指す企業のすべての従業員はデータを活用する必要があります。
ただ、企業は急速なデータ量の増加やリソース不足などのさまざまな要因により、データ活用の高まる期待に応えられてない現状があります。
そこで登場したのが、DataOpsです。
DataOpsは自動化されたデータフレームワークの開発・運用を高速化することで、組織に高品質のデータ活用を実現できます。
DataOpsの価値
DataOpsは、組織内外のステークホルダーや顧客など必要なときに必要なデータを提供します。これにより、企業は市場における競争力を得ることができます。他にもDataOpsの提供する価値を下記に紹介します。
- 組織全体のデータロックの解除
- データインサイトの高速化
- 効果的な意思決定
- データ活用における生産性の向上
- フィードバックをもとにより鋭いデータインサイトの実現
企業はデータを活用・管理するプロセスを自動化することにより、データの準備や高度なスキルなどのボトルネックを解消できます。増加・複雑化したデータをビジネスに活用できるため、市場価値の向上に欠かせない重要なビジネス基盤を構築できます。
データ駆動型の実現に向けて、DataOpsのもたらす価値は大きいといえるでしょう。
DevOpsとの関連性
DevOpsとDataOpsの違いは、DevOpsがソフトウェア開発(Dev)とIT運用(Ops)を組合せてソフトウェアの展開を自動化しているのに対して、DataOpsはデータワークフローを自動化する点です。
従来ソフトウェア開発で採用されてきたDevOpsは、ソフトウェアの開発・テストおよび運用のプロセスを単一の自動化されたフレームワークに統合することで、高品質のソフトウェアのリリース時間を短縮してきました。またDevOpsは、開発担当者(Development)と運用担当者(Operation)の障壁を解消し、連携および協調することで、業務の自動化や効率化を図る狙いがありました。
DataOpsは、DevOpsの文化や仕組みをデータ活用に応用しています。
変化への迅速な対応を可能にするためには、ITシステムの開発と運用を連携させる「DevOps」だけでは不十分であり、業務システムやアプリケーションから生成される膨大なデータを素早く収集・分析する「DataOps」が必要不可欠です。
DataOpsでは、データの収集や分析・活用・改善のデータワークフローを自動化し、その過程で関わる「データの利用者」と「データの管理者」の壁をなくすことで、ビジネスに貢献することを目指しています。
DataOpsの実現に向けた課題
データ活用の実現には、データを管理する部門とデータを活用したい部門など、複数の部門が関係するため、部門間の連携不足により、さまざまな障壁が発生します。
企業にありがちなデータ活用における課題を紹介します。
データが部門内でサイロ化しており、所在や形式が分からない
データは各部門内の別々のデータベースに収集されており、各部門で個別に管理されているケースが一般的です。そのため、データがサイロ化していると必要なデータがどこにどのような形式で保管されているか把握するために、多大な時間が必要となります。
必要なデータをすぐに抽出できない
データが一元管理されていない場合、必要なデータのリアルタイムな収集は困難です。また、データを取得するためのシステム変更に、データを管理する部門やシステムを構築するIT部門が非協力的である場合、企業全体でデータを管理する体制が構築できず、必要なときに必要なデータを収集できない状態となります。
データの規模や種類がバラバラで扱えない
企業があつかうデータは膨大かつそれぞれ種類が異なるため、管理が複雑で煩雑化しやすいです。近年は演算に使われる構造化データ以外だけでなく、文書や画像・音声・動画といった非構造化データが増加しており、データの肥大化や複雑化が進んでいます。
データを活用したい部門と分析部門の連携が不足し、何故分析をするのかの要件が定まらないまま分析が進んでしまう
データを活用したい部門と分析部門の連携が不足すると、真のニーズや要件が分からないまま進んでしまい、最終的に活用されない分析となるケースがあります。特に、社内に分析の専門スキルをもつ人材がおらず、他社や外部ベンダーにデータ分析を依頼する場合は、連携がうまく取れずに、部門横断的な活動になる傾向が高いです。
データがセキュリティポリシーやコンプライアンスに適合しているか把握できていない
企業が保有するデータには、企業データや顧客データなど機密性の高いデータが多く含まれており、安全性を確保したセキュリティ対策は重要です。データのアクセス権限や重要度を把握できていないと、適切な管理ができず、本来であれば閲覧不可の部門へデータが流出するトラブルが発生します。
データの準備に時間がかかり、データ分析に時間を避けていない
データ分析に費やす時間のうちの60~80%をデータ収集や準備に費やしているといわれています。数週間から数か月間ほど時間がかかるケースもあり、分析前の準備が最も複雑で手間がかかる作業となっています。分析に使えるリソースは限られているため、結果として分析そのものにかける時間が少なくなり、思うような分析が出来ない問題があります。
上記の障壁を解消し、DataOpsを実現するには、あらかじめ理想となる形を想定しておくことが有効です。最終的な形態を具体的に明示することで、現状とのギャップを部門毎または全体的な目線で解決する施策を生み出しやすくなります。
次の章では、具体的な実践ステップを紹介していきます。
DataOpsを実践するためのステップ
DataOpsは、人、プロセス、テクノロジーの連携が重要です。
企業全体でDataOpsを実現するための、流れを紹介します。
Step1.データ戦略とビジネス戦略にマッチしたプロジェクトの選定
まずは、データ駆動型の意思決定に役立てられる、データ戦略とビジネス戦略にマッチしたプロジェクトを選ぶ必要があります。主要事業に関連のあるデータを、初回では採用するケースが一般的です。プロジェクトの選定で失敗しないためには、小規模からはじめるのが有効です。
Step2.プロジェクトの最終目標の設定
データプロセスにおける複雑性をなくし自動化を実現させるうえで、プロジェクトの最終目標を決定します。手作業に依存している費用対効果の高いプロセスから改善し、プロジェクトの最終目的の達成を目指します。
Step3.DataOpsに必要なメンバーを集めて、チームの発足
DataOpsの実現にはチーム作りが重要です。メンバーは、開発者やデータエンジニア・データサイエンティスト・ビジネスアナリスト、などで構成されます。できれば複数の部門からDataOps担当を選出するのが望ましいといえます。
Step4.データの情報(所在や種類、ルールやポリシーなど)の一元化
各部門で管理されたデータを把握・収集するのは、容易ではありません。データを一元化するためのソリューションは各社から提供されており、時間とコストはかかりますが、導入するメリットは大きいです。進めるうえでは、データを管理する部門への説明や導入後のアフターケアなども大切といえます。
Step5.オープンで拡張性に優れたフレームワークの作成
DataOpsを実現するためには、最新のデータアーキテクチャとAIによる自動化が必要です。そのためには、オープンで拡張性に優れたクラウドサービスの活用によるインフラの構築、データウェアハウスやデータレイクのデータ格納基盤の採用など、さまざまなサービスを組み合わせて最適なデータ活用基盤を構築します。
Step6.データの品質の確保
データがどこから来ているのか、データエラーが発生していないかなど、データの品質には充分な注意が必要です。データの品質が確保されていないと、データ分析の結果は信頼性の低いものと判断され、活用できなくなります。具体的には、データの内容や構造・関係性を分析して、データの変則や一貫性などを検出し、データの品質を評価します。
Step7.分析結果を関係者に公開して、ビジネス上の意思決定に役立てる
DataOpsはデータを生成するだけではなく、データから得られた洞察を適切なタイミングで適切なステークホルダーに提供することが重要です。
現在、企業の全員がデータを必要としており、限られた人員にのみ提供するのではなく、データの自由化や解放を行い、ビジネスに役立てるプラットフォームとして役立てられます。
Step8.継続的に改善を加えていく
DataOpsの実現に向けたプロセスのなかで、得られたデータや知見をフィードバックし、変更を加えたらテストを追加し、検証・改善する取り組みが重要です。そのため、使われないものや期待や効果の得られないものには時間をかけない、効率化も必要です。
DataOpsのプロセスについては、明確化された定義はありませんが、一般的にデータの収集・分析・活用・改善のデータ活用ライフサイクルを高速で回転することとされています。そのため、特にデータ活用の要求を小さな単位に分割し、短いサイクルで繰り返すアジャイル開発が主流となっています。
また、DataOpsを効果的に実現するためには、テクノロジーの活用が必要です。ただし、DevOpsのように全体を統合したフレームワークは未だ整備されていません。
Azureであれば各プロセスを高度に自動化できるソリューションが揃っており、組み合わせることで全体をカバーすることが可能です。次章では、Azureを用いてデータ活用を実現する方法について紹介します。
DataOpsに活用されるAzureのテクノロジー
DataOpsを実現するために、活用できるAzureのテクノロジーを紹介します。
まずは、Azureのデータ分析基盤の主要サービスを挙げます。
Azure Data Lake Storage Gen2
ビッグデータ分析向けのデータレイクを構築する基盤です。複数のペタバイト単位の情報にアクセス可能で、高いコスト効果が享受できます。
Azure Synapse Analytics
単一の統合された環境から、データ統合、データウェアハウス、ビッグデータ分析を実行できます。ノーコーディングでETLプロセスを作成できるため、データを簡単に取り込むことが可能です。
Azure Purview
オンプレミス、マルチクラウド環境におけるソフトウェアのデータ管理とデータ統制に活用できるデータガバナンスを提供します。また、データの検出や系列の特定・データの分類の自動化により、データカタログ機能を有しています。
要件によっては、Azure IoT Hub や Azure Databricks ・Power BI なども利用します。
また、DataOpsの実践ではソースコードの管理や CI/CDツール(ソフト開発におけるプロセスを自動化)も必要です。
Azure DevOpsやGitHub・GitHub Actionsなどを環境に応じて選定するといいでしょう。
DataOpsの実現のために、Azureはさまざまなサービスを提供し続けています。
特に注目されるサービスとして、Azure Data Factoryを紹介します。
Azure Data Factoryとは
Azure Data Factoryは、ETLプロセスをGUIの画面上操作で行えます。コーディングレスな実装が可能で、操作性に優れています。
Azure Data FactoryはGit リポジトリとの連携により、ソースコード管理やGitHub Actions によるパイプライン連携が可能です。GUIでの操作性に加えて、CI/CD を回しリリースサイクルを早める自動化を行えるため、DataOpsの仕組みを整備することができます。
また、Azureではサービスが常にアップデートされているため、継続的に利用することで、自社が理想とするDataOpsに近づけることが可能です。ぜひ活用してみてください。
DataOpsを導入するメリット
DataOpsを利用することで得られるメリットを紹介します。
- メリット1.増加するデータに対して、迅速にプロセスを実行できる
- メリット2.企業全体のデータ統合により、横断的なデータ管理が可能
- メリット3.リアルタイムかつ正確なデータをもとに洞察ができる
- メリット4.データに基づいた意思決定ができる
- メリット5.部門間の連携を強化できる
- メリット6.各メンバー(データサイエンティストやデータアナリスト)が本来の仕事に注力できる
- メリット7.データ基盤のフローを自動化できるため、手間のかかる分析の前処理の工数を削減できる
- メリット8.分析パイプラインの構築により、コード・構成・データのエラーやセキュリティ上の問題を自動検出でき、セキュリティが強化できる
- メリット9.パフォーマンス・セキュリティ・品質などを継続的に監視し、エラーを検知することで、運用を効率化できる
最初は小さく始めて、少しづつ組織全体へスケールアップすることで、DataOpsの効果を享受できるようになります。
まとめ
DataOpsはビジネスの価値向上に大きなメリットがあり、データ駆動型を目指す企業にとって不可欠な仕組みとなるでしょう。データ分析における洞察をビジネス上の意思決定に役立てるためには、リソースの有効活用やコスト効率に重きをおき、人・プロセス・テクノロジーを自動化するデータ分析基盤の構築が必要です。Azureではデータ活用プロセスを自動化できる豊富なソリューションが提供されています。
ぜひ自社のデータ活用における理想の姿に近づける方法として、Azureを活用したDataOpsの実現を検討してみてください。