本稿では、ビッグデータについて解説しています。
2012年頃からビッグデータという言葉が流行し、ビジネスでの活用に注目が集まりました。その言葉からわかるようにビッグデータは「非常に大きなデータ」のことです。
経営活動を続けていると、日々大量のデータが生まれていきます。特に最新では、人によるデータの作成だけでなくIoTなどの機械からのデータ、コンシューマライゼーションによるモバイル活用によるデータなど、日々のデータは想像以上に大規模化しています。それらの膨大に蓄積されたデータに対して、企業はいかにうまく向き合うかが企業経営には必要不可欠とされるようになりビッグデータが注目を集めているのです。
そのことから、ビッグデータは単にデータを保管するだけでなく、分析してこそ意味を持ちます。そこに必要な周辺技術が鍵となり、広義のビッグデータではこれら全体を総称しています。
そして、データウェアハウスはビッグデータと切っても切り離せない関係です。そんなビッグデータとデータウェアハウスについて分かりやすく解説しておりますので、両者の違いや基礎を学びたいという方は、ぜひ参考にしてください。 また、後半にはAIやBIとの関係についても解説します。
改めて、ビッグデータとは?
最近ではビッグデータという言葉を耳にすることが少なくなったように感じます。しかし、一過性の流行に過ぎなかったわけではなく、「データはそもそもビッグである」という概念が広く浸透したからではないでしょうか?
その証拠として、現在でも過去以上にデータ分析の重要性は叫ばれており、少ない労力で高度な分析を可能にするITツールや、大量のデータを瞬時に処理してビジネスに有用な知見を生み出すAI(人工知能)などが進歩を遂げています。また、IoT(モノのインターネット)によって世界では今まで以上に大量のデータが生まれている状況にあります。
つまり、あえて「ビッグデータ」という言葉を持ちなくても、データを大規模なものとして捉えて分析に取り組み、ビジネスを今までより良いものにするという姿勢が企業に浸透しているのだと考えらえます。
ビッグデータとは、「様々な形をした、様々な性格を持った、様々な種類のデータのこと」を指します。実はビッグデータは、データの量(Volume)、データの種類(Variety)、データの発生頻度・更新頻度(Velocity)の3つのVからなり、いずれも重要な要素として捉えられています。
以下はIT用語辞典からの引用でありビッグデータの定義として示されています。
ビッグデータとは、従来のデータベース管理システムなどでは記録や保管、解析が難しいような巨大なデータ群。明確な定義があるわけではなく、企業向け情報システムメーカーのマーケティング用語として多用されている。
多くの場合、ビッグデータとは単に量が多いだけでなく、様々な種類・形式が含まれる非構造化データ・非定型的データであり、さらに、日々膨大に生成・記録される時系列性・リアルタイム性のあるようなものを指すことが多い。今までは管理しきれないため見過ごされてきたそのようなデータ群を記録・保管して即座に解析することで、ビジネスや社会に有用な知見を得たり、これまでにないような新たな仕組みやシステムを産み出す可能性が高まるとされている。
データウェアハウスとは?
データウェアハウスはいわゆる「データの保管庫」のことです。DWHと表記されることも多いでしょう。企業が保有するビッグデータは、さまざまな基幹システムや情報システムから生まれますので、生まれたばかりのデータはシステムごとに分断されているのが通常です。それらを分析するためには、それぞれのデータを1ヵ所に集約する必要があります。その役割を担っているのがデータウェアハウスというわけです。
さらにかみ砕いて言えば、データウェアハウスはデータ分析するための倉庫であり一種のデータベースです。通常のデータベースと異なる点は、データウェアハウスが多種多様な連携先を持ち、複数の基幹システムや情報システムからデータを収集する機能を持っていることが一般的です。
このことからビッグデータがデータそのものをさすのに対して、データウェアハウスは入れ物という要素が強いように思います。つまり、データウェアハウスの役割はビッグデータを分析する環境を整えるという関係もあったりします。
しかし、最近では両者はその周りの周辺技術などを包含する意味合いで使われることが多いため同意に捉えられることもしばしばありますので文脈を読み取流必要があることも事実です。
ビッグデータとデータウェアハウス、それとBIの関係
ここまでの解説をまとめますと、ビッグデータとは大量かつ多種多様なデータの集合体であり、それを分析可能な状態に保管するのがデータウェアハウスです。ここで問題になるのが、「誰がデータを分析するのか?」です。
データ分析と聞くと、Excelや専用システムを使って分析していくというイメージがありますが、近年では効率的にデータを分析するためのITツールが多数登場しています。その1つがBI(Business Intelligence)と呼ばれるITツールです。
BIの意味は「意思決定に必要な情報をまとめたもの」であり、BIにはデータを効率よく分析するための機能が備わっています。しかし、BIはあくまで「分析するだけのツール」なのでデータを保管できません。そこでビッグデータを保管しているデータウェアハウスと連携して、分析に必要なデータを適宜抽出し、データ分析を実施した上でビジネスに活用できる情報としてレポートしてくれます。
ビッグデータとデータウェアハウス、それとBIは現代ビジネスにおいて切っても切れない関係にあり、先進的なビジネスを推進するのに欠かせない存在です。
ビッグデータとAIはどのように関係するのか
それでは、昨今よくきく「AI」はどのようにこれらと関係してくるのでしょうか。
冒頭に述べたとおり、最近はIoTデータなどが加わり、企業を取り巻くデータはますます肥大化、巨大化していています。それらのビッグデータは、もはや人間が分析できないほどになってきていると言えます。そして、このビッグデータを分析するために、人工知能を応用できるようになってきたのです。
人工知能にはいろいろレベルがありますが、現在の中心は機械学習です。機械学習は、コンピューターにビッグデータを読み込ませて、アルゴリズムに基づいて分析させる手法のことです。元になるデータを大量かつ反復的に学ばせることで、特徴やパターンを見つけ出します。そして、そこで見つけた特徴やパターンを新しいデータに適用させることで、新たな分析・解析や予測を行うことが可能になるのです。
そのため、膨大な情報を与えることで、ルールや知識を人工知能(AI)自らが学習し人間では気づかないような分析結果や予測を可能にするため、このデータウェアハウスやビッグデータとは切ってもきれない関係になるという事になります。