ビッグデータ活用がビジネスの成長に欠かせない時代になりました。その一方で、データ活用の準備にかかる時間とコストが問題視されています。こうした課題を解決する方法としてデータプレパレーションがあります。ここでは、ビッグデータ活用の課題を解決するデータプレパレーションの基礎知識やメリット、活用方法などを解説します。
データプレパレーションの基礎知識
まず、データプレパレーションの概要や背景について解説します。
データプレパレーション概要、メリット
データプレパレーションとは、ビッグデータ活用の前段階である「データの準備(クレンジング)」に関する手法のひとつです。具体的には、非定型データの収集と変換、整形といったデータクレンジングで特に手間を要する工程を効率よく進める方法として知られています。
特にデータプレパレーションツールは、欠損値の補完や値の変換、表記ゆれなどをGUIベースで進められることから、誰もが使いやすいツールと言えます。近年は、機械学習を組み込むことで、作業者に対してレコメンドやアドバイスを付与する機能も搭載されるようになりました。ビッグデータ活用の中でも最もアナログで、かつ負荷が高いとされていたデータ準備の工程を一気に効率化するツールとして期待されています。
データプレパレーションが注目される背景
データ活用・分析にかかる工数の中でも、準備(クレンジング)作業にかかる部分は無視できないほど大きなものです。また、準備作業には専門知識が必要なことから、コストや人材確保の面でも課題がありました。
一方、すべての業務にエンジニアを配置することはできません。したがって、ICTの専門知識を持たないユーザーが、単独でデータの準備を進められる環境が求められています。
さらに、BIをはじめとした分析サービスを使いこなすには、良質なデータを迅速に用意できることが前提となります。例えば、SNSから得られるソーシャルデータや公的団体が公開しているオープンデータ、IoTデバイスが収集するマシンデータには、大量の非定型データが含まれています。こうしたデータを手軽に加工し、データ活用に生かすための方法としてデータプレパレーションへの需要が高まっているようです。
データプレパレーションとETLの差とは?
データプレパレーションが普及する前は、データ準備のツールとしてETL(Extract/Transform/Load)が広く使用されていました。今でも、データプレパレーションとETLが混同されているケースが散見されます。しかし、両者の間には以下のように明確な違いがあります。
データプレパレーションとETLの違い
ETLを使いこなすためには、コーディングスキルやシステム開発の経験が必要とされる傾向にあるため、エンジニア以外の人材にはハードルが高いものでした。
一方、データプレパレーションツールは、GUIベースの操作を基本としており、エンジニア以外の人材でも直感的に操作できるように作られています。
具体的には、以下4つの点でデータプレパレーションツールとETLは異なります。
想定するユーザー
TLは比較的規模の大きなシステムとして作られることが多く、エンジニアが扱うことを想定しています。一方、データプレパレーションツールはバックエンドの実務担当者やマーケター、データアナリスト、データサイエンティストなどシステム開発の専門家ではない人材をターゲットにしています。
使い方、活用シーン
ETLの基本的な使い方は、中~大規模なデータウェアハウス(DWH)にデータを集約し、自動的にクレンジングを行うというものです。これに対してデータプレパレーションツールは、実務担当者がPCの画面からデータの整形や変換を行うことを想定しています。
ユーザーインターフェース
ETLは原則としてスクリプトで実行されるため、ユーザーが画面上から操作する割合は小さくなっています。一方、データプレパレーションはGUIでの操作を基本としています。
ローコード、ノーコードへの対応
ETLを動かすためにはコーディングによるスクリプトなどの作成が必須です。一方、データプレパレーションツールは、ローコード・ノーコードでの操作を基本としています。近年は、両者の特徴を併せ持つツールも登場しており、ローコード・ノーコードでありながらETLのように規模の大きなデータクレンジングを行うことも可能です。
データプレパレーションツール×クラウドプラットフォームの強み
データプレパレーションツールは、クラウドプラットフォームとの親和性が高く、今後は両者を組み合わせて使う方法が一般化していくと考えられます。
「全部入り」のクラウドプラットフォームと相性が良い
クラウドプラットフォームには、データプレパレーションの前後で必要となるツールが、標準機能として搭載されていることがあります。例えば、生データを蓄積するデータレイクや、分析用ツールであるアナリティクス・BIなどは、データプレパレーションツールと連動させながら使用します。こうしたツールを標準機能として提供しているクラウドプラットフォームであれば、データ準備・投入・分析といった一連の作業を、追加開発なしで進めることができます。
また、オンプレミスよりもスケールイン/アウトが容易であることも強みです。サイジングやキャパシティプランニングに頭を悩ませることなく、最低限の投資でデータ活用基盤を整えることができます。
データプレパレーションとして活用可能な「Azure Data Factory」
メジャーなクラウドプラットフォームのひとつである「Azure」でも、データ準備機能を備えた分析サービス「Azure Data Factory」を提供しています。
ローコード・ノーコード対応のクラウドETL
Azure Data Factory はどちらかと言えばETLに近いツールです。しかし、GUIベースでデータ変換フローを作成可能なことや、ローコード・ノーコード開発が可能という特徴から、データプレパレーションツールとして使用することもできます。
Azure Data Factoryは、オンプレミス、クラウドが混在した環境に対応することから、クラウド移行の最中であってもスムーズにデータクレンジングを進めることが可能です。また、90以上の豊富なコネクタでさまざまなデータソースを活用できたり、一般的なETLと同様にコーディングで複雑な独自処理を追加できたりと、高機能で使いやすいツールです。
まとめ
今回は、データプレパレーションの基礎知識やETLとの違いについて解説してきました。データプレパレーションツールは、従来型ETLの弱点であった学習コストの高さや複雑さを補い、誰もがデータ準備に携われることを目的としたツールです。今後は、クラウドプラットフォームと組み合わせることで、低コストで使い勝手に優れたデータ活用ツールになることが期待されています。自社独自のデータレイクや分析ツールを保持していない場合は、Azure Data Factoryのようなサービスの活用を検討してみてはいかがでしょうか。