近い将来、本格的なデジタル化社会の到来が予想されます。年々、データの量やデータソースの種類が膨大になっていく一方で、そのデータを適切に管理する準備ができている企業はわずかしかありません。データ資産全体を自動化し、総合的に把握することを実現するためのツールである「Azure Purview」について説明します。
Azure Purviewとは
Azure Purviewは、Microsoftが構築した総合データシステムです。サーバーなどの情報システムを企業の管理する設備の中に設置し自社運用するオンプレミスや、ユーザーがインターネットを介してクラウドサーバー上のソフトウェアを利用できるサービスであるSaaSなど、クラウド上に保存されたデータを包括的に管理し制御することができます。
データ活用社会の到来により、総合的にデータを管理し、情報を効率的に使用するための方法を確立する必要性がこれまでにないほど高まっています。そのような背景を受け、MicrosoftがAzure Purviewを構築しました。複数のクラウドシステムやSaaSアプリケーションを使用している場合でも、Azure Purviewを使用すれば、データがクラウド上のどの場所に存在するかにかかわらず、データを検出することが可能です。
またAzure Purviewは、メタデータの収集、分類システムの自動化により、データを常に最新の情報にアップデートします。そのため、ユーザーは常に信頼できるデータを見つけることができます。
Azure Purviewでスキャンする方法
Azure Purviewでデータをスキャンするためには、いくつかの手順を踏む必要があります。以下に手順を説明しますので参考にしてください。
まず、Azure Purviewのアカウントを持っていない場合は最初にアカウントを作成してください。次に、アクセスキーを取得してファイル共有の認証を行います。アクセスキーの設定方法は以下の通りです。
- ストレージアカウントから、「設定」→「アクセスキー」を選択する
- キーをコピーし、メモ帳などに保存する
- キーコンテナーに移動する
- 「設定」→「シークレット」を選択する
- 「+生成/インポート」を選択し、「名前」と「値」にキーを入力する
- 「作成」をクリックして完了
- 自分のキーコンテナーがPurviewに未接続の場合、新しいキーコンテナーの接続の作成を行う必要があります。新しい接続の作成をするには、Azure portalからAzure Purviewを選択してPurview studioを開き、「管理センター」→「資格情報」ページで「Key Vault(接続の管理)」を選択、「+新規」を選択して必要な情報を入力して「作成」をクリックします。
- 新しい資格情報を作成します。Azure Purviewの「資格情報」ページで「+新規」を選択し、新しい資格情報を作成します。必要な情報を入力し、「認証方法」と「Key Vault インスタンス」を選択してください。入力が完了したら「作成」をクリックします。
Purview Studio のData Mapを選択する
上記の手順が済んだら、Azure Files ストレージアカウントを登録し、新しいAzure Files アカウントをデータカタログに登録できるようにします。
まずPurview Data Studioの左側のメニューから「Data Map」を選択します。
登録済みのデータソースを選択する
データソースをまだ登録していない場合はここで登録します。まず「Data map」を選択した後、「登録」を選択します。次に「Register sources(ソースを登録する)」の「Azure Files」を選択し、「続行」をクリックします。
このとき、「Register sources(Azure Files)」という登録画面が表示されます。一番上の「Name」欄にはデータソースの表示名を入力してください。二番目の欄は「From Azure subscription」を選択し、プルダウンから適切なサブスクリプションを選択します。三番目の「Storage account name」ではプルダウンで適切なアカウントを選択してください。最後に、「Register(登録)」を選択します。これでデータソースの登録が完了し、Data Mapから、登録済みのデータソースを選択できるようになりました。
新しいスキャンを実行する
新しいスキャンを実行するには、まずPurview Studioの左側のメニューから「Data Map」を選択します。
次に、登録したデータソースを選択し、「新しいスキャン」を選択します。
資格情報を選択する
続いて、「Credential(資格情報)」欄で、選択したデータソースにアクセスするための資格情報をプルダウンから選択します。
スキャン対象のチェックボックスを選択する
ツールの画面上でスキャン対象のチェックボックスを選択することを記載。
「Scope your scan」欄では、スキャンの対象にチェックを付けて、フォルダ、コレクションなど特定の部分をスキャンするように設定できます。
スキャンルールセットを選択する
「Select a scan rule set」欄でお好みのスキャンルールセットを選択します。システム既定のルールセット、既存のカスタムルールセットのほか、新しいルールセットの作成も可能です。
スキャントリガーを選択する
「Set a scan trigger」欄で、スキャンを行う頻度を設定します。1度だけスキャンするという設定も可能です。
保存及び実行を選択する
最後に、「保存および実行」をクリックします。
Azure Purviewで複数同時にスキャンする方法
Azure Purviewにいくつかのソースを登録し、それらに対し複数同時にスキャンする方法もあります。以下に手順を示します。
まず、リソースを列挙するための認証の設定を行います。
- Azure portalでサブスクリプショングループ、またはリソースグループの画面に移動します。
- 左側のメニューの中から「IAM(アクセス制御)」を選択し、「追加」を選択します。
- 「入力の選択」画面で「閲覧者」を選択します。その際、そのMSIファイル名を表すAzure Purviewのアカウント名を入力してください。
- 「保存」をクリックします。
次に、Azure Blob StorageやAzure Data Lake Srorage Gen1といった登録してスキャンしたいリソースごとに、認証を設定します。
続いて、複数のソースを登録します。
- Azure Purview アカウントの左側のメニューから、「Data Map」を選択します。
- 「登録」を選択し、「ソースの登録」から「Azure(multiple)(複数)」を選択し、「続行」をクリックします。
- 「Register sources」画面の「名前」欄に、一覧表示されたときにわかりやすい名前を入力します。
- 「管理グループ」で、適用したい管理グループを選択します。
- 「サブスクリプション」と「リソースグループ」欄で、それぞれ特定のグループを選択します。
- 「登録」をクリックします。
最後に、スキャンを作成して実行します。
- 「Purview studio」の左側メニューより「Data Map」を選択します。
- データソースを選択してクリックします。
- 「詳細の表示」→「+新しいスキャン」を選択します。
- 「名前」を入力し、「種類」でリソースを選択します。オプションは「すべて」のままにしておくか、プルダウンから選択します。
- リソースにアクセスするための資格情報を選択します。
- 「続行」をクリックします。
- リソースごとにルールセットを選択します。
- 内容を確認し、「保存」をクリックします。
まとめ
Azure Purviewの概要と合わせて、Azure Purview上でデータソースの登録とスキャンを実行する方法について説明しました。ぜひAzure Purviewを使いこなして、クラウド上の膨大なデータを管理・分析し、適切に活用してください。