ビッグデータ活用では「データの質」が重要な意味を持ちます。なぜなら、質の低いデータは有効な分析結果に結びつかないからです。逆に、質の高いデータの蓄積は、ビジネスの現状把握や業務上のボトルネックの改善、新しい製品・サービスの開発に役立ちます。このことから、ビッグデータ活用では、データ品質管理に対する理解と実践が欠かせません。ここでは、データ品質の重要性と品質改善のポイントを解説します。
データ品質はなぜ重要か?
まず、データ品質の重要性について解説します。
ビッグデータ時代に突入し、データが意思決定や業務改善の源泉として存在感を増しています。データは加工や編集を経て、業務部門の垣根を越えながら二次、三次利用されるものです。そのため、元のデータ品質が低いと意思決定や業務スピードが落ちたり、製品・サービスに悪影響を及ぼしたりと、さまざまなリスクがあります。
また、低品質なデータが混在することで、データ品質改善(=データクレンジング)のコストが跳ね上がることも課題です。複数のデータソースからデータ収集を行う場合、データの加工・編集プロセスも複雑になります。仮に誤値や欠損が発生すると、原因特定のために複雑なプロセスを遡らなくてはならず、時間と労力が必要です。
したがって、まずデータ品質に対する評価基準を明確にし、基準をクリアしたデータのみを、情報基盤に蓄積するという施策が必要です。しかし、日本ではデータ品質に関する明確な評価基準が存在していないため、企業が独自に基準を策定し、データ品質を担保しているというのが実情ではないでしょうか。
そこで、政府が公表しているガイドラインを参照しながら、データ品質管理に関する評価基準をご紹介します。
データ品質の評価基準
今回紹介するのは、データ品質評価の国際標準であるISO/IEC 25012(データ品質の評価)をもとに、日本政府が公表している評価モデルです。以下15の項目で構成されています。
データ品質を決定づける15項目
正確性
正確性は、「書式」「誤字脱字」「意味的な誤り」「データ自体の誤り」によって評価されます。具体的には、数値が入るべき項目に漢字やひらがなが入力されていないか、意味の異なるデータ(住所欄に氏名が入力されるなど)は無いか、といった点をチェックします。
完全性
完全性は、データに抜けや漏れがなく、完全であることを評価する項目です。必須項目に空欄が無いことや、用途に応じて網羅的にデータが定義されていることなどをチェックします。
一貫性
一貫性は、項目や値に矛盾がないことを評価する項目です。データセット内、もしくはデータセット同士の間でデータに矛盾がないことをチェックします。
信憑性
信憑性は、意思決定や業務利用に足るだけの信頼性が担保されているかを評価する項目です。データの出所や更新日、改ざん防止策の有無をチェックします。
最新性
最新性は、データが最新であること、的確に更新されていることを評価する項目です。公開されているデータの更新サイクルや、収集から公開までの期間、最終更新日や最新版の所在などをチェックします。
アクセシビリティ
アクセシビリティは、データに対するアクセスの良さや活用のしやすさなどを評価する項目です。データの権限設定や、提供元のソフトウェアがISO/IEC40500 に準拠しているか、文字セットの正しさ(常用外の漢字がないか)などをチェックします。
標準適合性
標準適合性は、データにまつわるルール(入力ルールなど)に適合しているかを評価する項目です。データの書式(西暦、和暦など)や文字セット(環境依存文字ではないかなど)・選択項目の値(選択肢以外の値の有無)などを、チェックします。
機密性
機密性は、データがその目的に応じた機密性を保持しているかを評価する項目です。データへのアクセス権限や利用者制限の状況・セキュリティ対策(暗号化、ハッキング対策)などをチェックします。
効率性
効率性は、データが加工・編集・分析しやすい状態になっているかを評価する項目です。値の重複が無いか・IDやコードで分類されているか・一貫性があるか・半角や全角が混在していないかなどをチェックします。
精度
精度は、データが一定の正確さ・精密さを保持しているかを評価する項目です。小数点以下の桁数が統一されているか・誤差の許容範囲は一定であるかなどをチェックします。
追跡可能性
追跡可能性は、データが誤っていた場合などに、遡って調査できるかを評価する項目です。外部データの出所や変更履歴・変更箇所などが明確であるかをチェックします。
理解性
理解性は、利用者がデータを理解しやすい形になっているかを評価する項目です。データに対する説明は適切か、データが複数の意味に捉えられないか、略称は適切かなどをチェックします。
可用性
可用性は、データの使いやすさを評価する項目です。いつでも利用できるようにシステムが稼働しているか、時間や場所の制限は適切かなどをチェックします。
移植性
移植性は、システム間のデータ連携や移動が容易であるかを評価する項目です。フォーマットの適切さや、エクスポート時の形式が標準的なものであるかをチェックします。
回復性
回復性は、不測の事態でデータの喪失が起こった場合に、回復できる状態にあるかを評価する項目です。バックアップの有無やバックアップシステムの継続性・可用性などをチェックします。
特に重視すべきは「正確性」「完全性」「最新性」
以上の15項目をすべて網羅するのは難しいかもしれません。そこでまずは、実務で特に重要である「正確性」「完全性」「最新性」に注目してみましょう。
正確性
データ品質管理で最も重要だと考えられます。なぜなら、正確性が無ければ膨大なデータクレンジングが発生し、データ準備のコストが上がるからです。また、分析業務やデータ活用基盤の運用にも支障をきたすでしょう。さらに、不正確なデータがシステム全体を循環してしまうと、複数のシステムで調査や巻き戻しが発生し、業務進行が妨げられる可能性があります。
完全性
完全性が低下すると、欠損値によって連携先システムにエラーが発生したり、正しい分析が妨げられたりと、データ利活用に支障が生じます。
最新性
CRMやERPなどに最新のデータがそろっていないと、製品仕様やカタログがアップデートされない可能性があります。また、製品仕様やサービスの案内が不正確になると、顧客からの信頼性が低下し、商機を逸してしまうリスクもあります。
データ品質を向上させるには?
上記3つのポイントへの対策としては、データクレンジングツールやETLの活用が挙げられます。
データクレンジングツールは、データの整形・重複・欠損値などを修正するためのツールです。近年は、より直感的にデータクレンジングを行うためのデータプレパレーションツールも登場してます。
また、ETLはデータ抽出・変換・加工処理を自動化するツールです。ETLはシステム間連携に組み込まれるもので、データ抽出とクレンジング、加工・編集処理、情報基盤への反映を一貫して行います。出所が異なるデータに対し、手作業でフォーマットを統一したり、編集したりといった業務が自動化されることが強みです。
コードレスでデータ品質を保つ「Azure Data Factory」
低予算でデータ品質の改善を実現したい場合は、クラウドプラットフォームが持つETL機能の活用がおすすめです。 Azureには、データ品質改善を含むデータ利活用のためのソリューション「Azure Data Factory」があります。
Azure Data Factoryでは、最初に手動でデータクレンジングを行い、その工程を加工処理として登録しておけば、自動で処理が実行されます。これまで手作業で行っていたデータ品質改善の作業を、手軽に自動化することができます。
まとめ
ここでは、データ品質の重要性や評価基準、特に注力すべきポイントなどを解説しました。データ品質は分析、データ運用、サービス活用などデータ利活用全体の生産性に直結します。データ品質管理の効率化とともに、分析・運用・サービス活用までを含むクラウドプラットフォームへの移行も検討してみてください。