企業が保有するデータは日々増えていきますが、それらを効率的に管理し、経営やマーケティングの戦略に活用するためにはデータ活用基盤の整備が欠かせません。本記事ではデータ活用基盤の概要や重要性を紹介し、データの蓄積・加工・保管の役割を担う「データレイク」「データウェアハウス」「データマート」について解説します。
データドリブン経営に不可欠なデータ活用基盤
データに基づいて意思決定を行う経営手法のことをデータドリブン経営といいます。データドリブン経営を導入することによって企業はさまざまなメリットを得られますが、膨大なデータを適切に管理して必要な情報を取り出せるようにしておくにはデータ活用基盤の整備が不可欠です。
データ活用基盤とは?
データ活用基盤とは、大量のデータを分析する際に必要な情報を必要な時に取り出せるデータ処理システムのことを指します。経営やマーケティング、営業戦略の立案など、ビジネスにおいて欠かせない技術基盤です。
主にデータの収集、連携、統合、蓄積、加工、可視化、分析といった役割があり、この基盤を構築することで効率的なデータ活用が可能になります。データはあらゆる現場で日々発生しつづけていますが、それらが社内に散在している状態ではデータの価値は低いままです。また、データ量が少量であればExcelで管理することも可能ですが、データが増えるにつれて処理に時間がかかり、作業ミスも生じやすくなります。
そのため、大量のデータを一元化して効率的に管理するにはデータ活用基盤の整備が不可欠であり、それによってはじめて企業が保有するデータの価値が高まり、武器として使えるようになるのです。
データ活用基盤の重要性
なぜ今データ活用基盤の重要性が高まっているのかというと、IoTやAIといったテクノロジーの発展によって企業におけるデジタルデータの流通量が増加するなか、その活用が競争力に直結してくるためです。
近年では、社内データだけでなく外部データを購入して製品・サービスの開発やマーケティング戦略に活用している企業もあり、いかにデータを上手に使いこなせるかが売上や市場シェアの拡大につながっています。
しかし、扱うデータ量が増えるほど管理が煩雑化し、従来の方法では増え続けるデータに管理が追いつきません。そこで必要になるのがデータ活用基盤の整備です。データ活用基盤には、「各部署のシステムに保存されているデータを全社で統合管理したい」、「異なる形式のデータを連携したい」、「すぐに分析に利用できるよう生のデータを加工したい」、といった問題を解決する機能が備わっており、これからビッグデータの活用していくためにはまずこの基盤を整備する必要があります。
データ活用基盤の種類
データ活用基盤は、データを集める役割を担う「データレイク」や、保管する役割を担う「データウェアハウス」「データマート」など、複数のシステムによって構成されています。それぞれの特徴を確認しましょう。
データレイク
データレイクとは、ビッグデータを生のデータのまま格納できるシステムのことです。構造化データはもちろん、音声や動画、ネットのログといった非構造化データも整形の手間をかけずそのままの形式で格納できるメリットがあり、機械学習によく利用されます。
また利用料が比較的安いため、容量とコストをあまり気にすることなくデータの蓄積が可能です。集めたデータは用途を決めずにとりあえずしまっておける一方、データの属性を記録しないまま放置してしまうと、欲しいデータを素早く見つけることができません。
そのためデータレイクに格納する際にはデータのソースや形式などをもとにタグ付けし、おおまかに分類しておくことで検索性を確保する必要があります。
データウェアハウス
データウェアハウスとは、さまざまなシステムからデータを集約、保管しておくための「倉庫」の役割を果たすデータベースのことを指します。構造化データのみを格納するのがデータレイクとの違いです。データが時系列で保存されるため、履歴を確認することが可能です。データレイクでは、CRMや会計システム、人事システムといった異なるITツールなどで扱うデータや、各部署に分散するデータを統合・整理して蓄積していきます。
データマート
データマートとは、データを抽出、加工した状態でデータを格納できるデータベースのことです。データウェアハウスでは全社のデータが部署ごとなどに整理されておらず、データの分析時に必要な部署のデータを検索する手間がかかります。
一方、データマートはデータを部署ごとに切り分けて保存するため、欲しいデータをすぐに見つけることが可能となるのです。データウェアハウスがあらゆる商品をストックしておくための「倉庫」だとすると、データマートはその中から必要な商品だけを取り扱う「小売店」としてイメージすると分かりやすいでしょう。単一部門のデータのみを格納しておくため、管理や導入の負担が小さく、処理スピードが早いのが特徴です。
データ活用基盤の目的
データ活用基盤は複数のシステムで構築されており、それぞれに異なる役割があります。本記事で紹介したデータレイク、データウェアハウス、データマートは、主に「蓄積」「加工」「保管」という3つの目的のもとに利用されています。
データの蓄積
データ活用基盤を構築する目的のひとつがデータの蓄積です。社内システムの各所にデータが散在することを防いで一元管理することで、効率的なデータ活用を実現します。
データレイクは元の状態を保ったままデータを蓄積するため、集めたデータをひとまず格納しておき、必要に応じて取り出して変換したり加工したりして利用します。変換や加工の過程でデータが失われてしまった時に備え、未加工のデータを残しておくこともデータレイクの役割です。
データの加工
蓄積したデータは、目的や用途によって抽出し、分析がしやすい形式に加工しなければなりません。項目や粒度による分類のほか、音声や画像といった非構造化データはそのままでは分析に使えないため、構造化データに変換します。また、破損や重複、表記揺れのあるデータが混じっていると分析結果の精度が低下する恐れがあるため、データクレンジングといって完全なデータのみを抽出してデータの品質を高める作業も行います。そして加工済みのデータは、構造化データを蓄積するためのデータウェアハウスに格納します。
データの保管
データ活用基盤の利用においては、データのサイズを小さくして保管することで管理を容易にし、データ処理のスピードを短縮するという目的もあります。
データマートで保管する際は、データを部門ごとに分割したり「売上分析」など特定の用途のために抽出したりした加工済みデータを保管しておくため、データウェアハウスよりもストレージの容量が小さくて済み、費用を抑えることが可能です。
データを探す時間も短縮できるでしょう。さらにデータを切り分けて保管することで不正アクセスによるリスクが軽減され、アクセス権限の管理もしやすくなります。
Azureでデータ基盤を整備
「Microsoft Azure」を導入することで、データ活用基盤をより簡単に構築することができます。Azureではデータの取り込みや加工、分析それぞれのフェーズに応じたサービスをワンストップで提供しています。また、「Azure Active Directory (Azure AD)」というサービスでは、各種サービスのアカウント管理を自動化し、権限状況のモニタリングが行えるため、セキュリティを確保しながらの運用が実現できるでしょう。
まとめ
企業が保有する膨大なデータを従来のデータベースで管理しようとすると、容量が足りなかったり、検索性が低下したりしてしまいます。そのためビッグデータの蓄積や分析にはデータ活用基盤の構築が不可欠です。基盤の整備を考えている方は、セキュリティ性に優れるMicrosoft Azureの導入を検討してみてはいかがでしょうか。