人工知能や機械学習の台頭によりデータ活用に対するニーズは日ごと増していますが、多くの企業ではそれらをどのように活用すれば良いのかを日々試行錯誤しているのではないでしょうか。現代社会において、データはありとあらゆる場所で生み出され、最近ではIoTデータなど機械から生み出されるものや顧客の声、3rdパーティデータなどデータソースが多種多様化しています。
そして、ほどんどの企業ではデータ分析のための技術ではなく「データを収容するシステム」に課題を抱えているようです。
企業には会計システムや生産システム、販売システムなど様々な基幹系システムが稼働しており、それらは日々大量のデータを生み出します。しかし、システムごとにデータフォーマットは違いますし、管理しているデータの種類も違います。さらに、各システムが分断的に稼働しているので、すべてのデータを一元的に管理するのが難しい状況です。にもかかわらず、データ活用の世界ではそれらのデータをすべて集約し、一元管理を実現する基盤が欠かせません。
つまり、「基盤がないからデータ活用もできない」という状況にある企業が多く、特にIT活用が遅れている日本企業はデータ分析においても世界から遅れを取っています。
そこで注目を集めているのが、「データレイク(Data Lake)」です。今回は、データ活用においての重要性と、データウェアハウスやデータマートとの違いを分かりやすく解説していきます。
データレイクとは?
ガートナーはデータレイクを「各種データ資産のストレージ・インスタンスの集合」と定義しており、「データレイク内のデータ資産は、データソースにおけるフォーマットをほとんど、あるいは完全に複製した形で保存されており、起源となるデータストアに付加されている」と説明しています。
この定義をかみ砕いて説明しますと、「データレイクはデータの種類に関わらず、すべてのデータをそのままの形で一元的に保存できる場所であり、かつビッグデータ処理やリアルタイム処理、AI研究分野などさまざまなシーンで活用できる状態を維持するもの」と言えます。
構造化データというのは、会計システムに記録されている取引明細や販売システムの売上データなど、表形式でまとめられるデータ群のことです。数年前まで、企業が管理するデータのほとんどがこの構造化データでした。
一方、非構造化データはテキストや音声、画像、動画といった原則として構造化ができないデータ群を指します。WebマーケティングやAI研究が活発化するにつれて、この非構造化データの重要性が次第に増していき、2020年のデータ全体における非構造化データの割合は最大90%に達すると言われています。
本来、構造化データと非構造化データは別々に管理すべきデータ群なのですが、両者を結合して高度なデータ分析を実施することで、今まで以上にデータ活用を促進しようという動きが盛んになっています。そのため、2つの構造が異なるデータを同じように収容できるデータベースである、データレイクに注目が集まっているというわけです。
データウェアハウスとは?
世界で初めてデータベースというものが登場したのは、1950年代のことです。ちなみにデータベースは、データを保管するための場所です。そして1980年代には、現在のスタンダードとも言える「リレーショナルデータベース」が誕生しています。つまり、人とデータベースが対話しながらデータを処理する仕組みです。
データベースは通常、システムと1対1の関係で接続されています。システムが生んだデータを記録し、必要に応じて取り出し、また記録する。そして更新と追加を繰り返していきます。ビジネスが成長するにつれて、企業が運用するシステムも増えていき、あらゆる場所からデータが生まれるようになります。それらのデータを分析するには、データを集約する場所が必要であり、その存在がデータウェアハウス(DWH)です。
たとえば、ある小売チェーンの会員に入会し、ポイントカードを所持している方は多いでしょう。ポイントカードを利用した際に生まれる購入データは、データウェアハウスに記録され、現在の消費者動向を分析するために活用されている可能性があります。データウェアハウスでは様々なシステムから生まれたデータのフォーマットを合わせて、1ヵ所にまとめておくことでそうしたデータ分析を可能にするデータベースです。
一方データレイクは、データウェアハウスで記録するようなデータに加えて、構造化されてないデータを一緒に記録します。たとえば消費者のSNSデータを取り込んで高度な購入予測を行ったり、天気や温度といった外部情報も取り込んで仕入最適化などを実現していきます。
構造化データを分析するだけでは、消費者や顧客企業の「状態」を知ることはできても、将来的な購入予測まで行うことはできません。また、個別に最適化されたサービスの提供も不可能です。そこに非構造化データが加わることで、高度な将来予測によって今までとは違ったサービスを展開できます。
データマートとは?
データマートは、データウェアハウスの中から特定の目的に合わせた部分を取り出したもののことをいいます。つまり、データベース全体ではなく、その一部を指しています。両者はデータが必要になるその時まで格納/管理するための場所です。データウェアハウスがすべての情報を格納するように構築されているのに対し、データマートは特定の部門またはビジネス要件を満たすためのものです。
データマートは既存のデータウェアハウスから作成することも、他のシステムや外部データから作成することもできます。構造的にはデータウェアハウスと変わりありませんが、もっと小さな単位のかたまりなので構築に時間がかからず、素早くデータ分析に取り組めるのが特徴です。
データマートとデータウェアハウスの違い
|
データマート |
データウェアハウス |
サイズ |
100GB未満 |
100GB以上 |
サブジェクト |
単一サブジェクト |
複数サブジェクト |
範囲 |
事業部門 |
全社 |
データソース |
少数のソース |
多数のソース |
データ統合 |
単一サブジェクト領域 |
すべてのビジネスデータ |
構築に要する時間 |
数分、数週間、数か月 |
数か月~数年 |
ビジネスニーズに応じたデータベース構築を目指す!
データ分析のためにデータウェアハウスが欠かせないというのは、今や昔の話です。現在では、非構造化データまでも含めた分析ニーズが増しており、それに伴ってデータレイクの重要性も増しています。ただし、大切なのはビジネスニーズに応じてデータベースを構築することです。何を分析して、何を目指すかによってデータレイクなのか、データウェアハウスなのか、データマートなのかが違ってきます。データ分析へ取り組む際は、その目的や目標から明確にして、最適なデータベース構築を目指していきましょう。
Azure Data Lakeでビッグデータ解析基盤を構築
Azure Data Lake には、開発者、データ サイエンティスト、アナリスト向けに、さまざまなサイズ、形態のデータを容易に格納し、複数のプラットフォームと言語であらゆる種類の処理と分析を簡単に実行するために必要な機能が提供されています。
また、データの取り込み方も既存のデータストアとの連携はもちろんのことバッチ処理、ストリーミングに対応しているため分析環境を瞬時に立ち上げる事に加えて、リアルタイムなビッグデータ解析も行うことができるようになります。また、Azure Data Lake は、オペレーショナルなデータベースやデータウェアハウスなどとシームレスに統合できるため既存のアプリケーションを拡張できるのも魅力です。詳細はAzure Data Lakeをご確認ください。