Azure Cognitive ServicesはAzureのAI関連サービス群で、クラウドからREST APIで提供されています。人間が世界を認識することを「認知(Cognitive)」と呼びますが、さまざまな領域に認知は拡がっています。たとえば、目で文字や写真を読み取ること、言葉を聞いて理解すること、情報を把握して推論を行うことなどがあります。この人間と同じような認知の働きをコンピュータ上でAIによって実現するのが、Azure Cognitive Servicesです。ビジネスにフォーカスしたAIサービスで、目的に合わせて短期間かつ効率的に導入することができます。
ここではAzure Cognitive Servicesの概要を解説した上で、画像認識、言語処理、音声処理、意思決定関連のサービスについて概要を整理します。
Azure Cognitive Servicesはビジネスに特化したAI
AIを汎用型人工知能と特化型人工知能に分けることがあります。
汎用型人工知能は、人間のように考えたり感情を持ったりする人工知能です。一方で特化型人工知能は、特定の処理だけ行います。しかし、汎用型人工知能の実現は困難であり、ビジネスの場で活用されている人工知能の多くは特化型人工知能のプログラムです。
人工知能は、膨大なデータから機械学習を行うことによって分類や予測などの認知を得ます。このとき高速処理が要求されるとともに、まったく学習なしの段階から機械学習を行う場合には労力と時間がかかります。
しかし、Azure Cognitive Servicesには既に学習済みのモデルが用意され、業界やジャンルにしたがってカスタマイズできます。これがAzureのAIサービスの強みであり、このような全体の特長を踏まえてAzure Cognitive Servicesの概要を解説していきます。
画像認識関連のAzureCognitive Services
ビデオ会議の音声や映像など企業が扱うデータ形式は多岐に渡り、音声をテキストに変換したり非構造化データを分析したり、多様なニーズが生まれています。このような機能を備えるとともに、業界別や用途にカスタマイズが可能です。
Computer Vision
画像や映像からテキストの抽出やラベル付けが可能です。10,000 以上のオブジェクトなどの自動的な識別に対応し、多言語が混在していても、さまざまな種類の画像やドキュメントから文字を認識、リアルタイムで物体の空間移動を把握することも可能です。
Custom Vision
特定の分野に向けた画像識別のサービスで、小売業、製造業、食品業などのニーズに合わせてカスタマイズできます。画像をアップロードして学習を行い、シンプルなREST APIでタグ付けして学習モデルを構築します。エッジAIにも活用できます。
Face
高度な顔認証のAIサービスです。画像やビデオ映像から人物の顔を抽出し、個人の認証、雑踏の警備、イベント来場者数のような効果測定に活用できます。年齢、顔つき、ひげなど、顔ごとに27 個の特徴点を検出します。喜びや恐怖のような感情の認識も可能です。
Form Recognizer
名刺、領収書、議事録などのカスタム文書のテキスト構造を解析し、テキスト、キーと値のペア、テーブルなどを正確に抽出します。オンプレミス、クラウド、エッジのあらゆる場合で活用可能。ビジネスプロセスを自動化して、効率的な処理を実現する機能です。
Video Indexer
映像や音声ファイルから、発話、話し手が誰か、人物の顔、文字、感情、場面など、さまざまなメタデータを自動的にインデックス化します。解析したビデオの情報から必要な部分を選択して、新たなビデオを作成するAIベースのビデオ編集機能も備えています。
Ink Recognizer(プレビュー版)
手書き文字で書かれた63の言語と図形などを認識してデジタルで利用できるようにします。手書き文字のテキストデータ化、検索可能にする、手書きの図形を正確な図形に変換するなど、ドキュメント活用の幅を拡げます。
言語処理関連のAzure Cognitive Services
カスタマーサポートにおけるチャットボットは、最も活用が進んでいるビジネス領域のAIサービスです。Azureは多言語対応に強みがあります。
Immersive Reader
テキストの読解を支援するサービスです。テキストの読み上げ、翻訳、ハイライト表示などの機能を備えています。翻訳では60を超える言語に対応します。
Language Understanding
チャットボットに自然言語の解析機能を追加したり、ユーザーとスマートデバイスなどのIoTが対話をしたりできるようにします。学習モデルの反復トレーニングが可能で、直感的な開発を実現するビジュアルインターフェースを備えています。
QnA Maker
FAQ、マニュアル、ドキュメントなどの半構造化コンテンツから質問と回答を抽出し、自動的な回答を行うチャットボットの構築を支援します。継続的に学習することで学習精度を高め、対話をするAIにWitty(機知に富んでいる)、Friendly(親しみやすい)、Enthusiastic(熱心)のような人格を追加可能です。
Text Analytics
構造化されていないテキストからキーフレーズ、人物、地名、組織などを自然言語処理で識別します。専門用語の事前トレーニングモデルを備え、たとえば医療の専門用語のモデルを使うと医療用語を識別できます。感情分析も可能です。オンプレミス、クラウド、エッジなどの活用シーンがあります。
Translator
70以上の言語によって、リアルタイムのテキスト翻訳を実現する機能です。アプリに翻訳機能を追加したり、カスタマーサポートの多言語対応に活用したり、さまざまな用途で活用できます。翻訳はカスタマイズ可能で、データは包括的なセキュリティで守られます。
音声処理関連のAzureCognitive Services
音声からテキスト、テキストから音声の変換を支援します。自動翻訳は、グローバルな企業におけるコミュニケーションの円滑化に役立ちます。
Speech to Text
オーディオファイルを正確なテキストに変換します。80以上の言語に対応し、背景のノイズやボキャブラリでカスタマイズして精度を高めることが可能です。マイク、オーディオファイル、BLOBストレージに保存されたデータなど、さまざまなリソースを活用できます。
Text to Speech
テキストを人間の話し言葉のように読み上げます。110種類以上の声と、45以上の言語やバリエーションが用意され、人間らしいイントネーションやなめらかな声を実現します。スピード、発音と声の高さ、言葉の間合いなど好みの声に設定できます。
Speech Translation
音声翻訳のAIサービスです。ニューラルネットワークによる機械翻訳によって30以上の言語の翻訳が可能で、専門的な固有名詞を翻訳できるようにカスタマイズ可能。「えーと」のような発話の間に入るフィラーを削除して読みやすい翻訳にします。
Speaker Recognition(プレビュー版)
音声から話者を判別するサービスです。話者を登録するとグループによる会話で識別することが可能になります。マルチユーザーの音声認識などの用途があります。
意思決定関連のAzureCognitive Services
経営判断に必要な需要や売上の予測、異常検知、顧客満足度の向上を目的とした不快な言葉のチェック、利用者に合わせたカスタマイズを実現します。
Anomaly Detector
アプリケーションにAIによる異常検知機能を組み込むことができます。APIから時系列データを読み込み、検出モデルを最適化する強力な推論エンジンを備えています。Azure portal から簡単にセットアップし、リアルタイムで異常を検出するとともに、カスタマイズが可能です。
Content Moderator
光学文字認識(OCR)やカスタムリストの画像から、不快感を与えるような画像や好ましくない画像を検出します。テキストの場合は、100 以上の言語の不適切語にフラグを設定します。映像では、成人向けや人種差別のコンテンツを検出できます。目視レビューの機能を組み合わせて、AIだけでなく人間によるチェックで精度を上げることが可能です。
Personalizer
強化学習をベースとしたレコメンデーション機能です。機械学習によって、リアルタイムでユーザーエクスペリエンスを向上させます。既存のアプリケーションを補足する目的のほか、スタンドアロンの機能としても利用できます。
Metrics Advisor(プレビュー版)
AIによる企業の監視機能です。コアエンジンにAnomaly Detectorを使い、売上高や生産性など、さまざまな組織のパフォーマンスを解析して、経営的な意思決定を支援します。リアルタイムの監視、精度の高い分析、アラートなどを備えています。
まとめ
これまでコンピュータは高速な計算処理によってビジネスを支えてきました。計算処理によって得られたデータを分析するのは人間の役割でしたが、AIサービスによってデータの類型化や予測などが可能になりました。
このことは、ビジネスに人間もしくは人間を超える強力な協力者が加わることを意味します。Azure Cognitive Servicesを取り入れることによって、企業が展開するビジネスの競争力を飛躍的に高めることができます。