「機械学習(Machine Learning:ML)」は、大量のデータから法則性を見出し、パターンやモデルを構築して処理を自動化する仕組みです。人工知能の分野で研究が進んでいます。
機械という言葉からアンドロイドやメカニカルなロボットを想像するかもしれませんが、基本的に機械学習はソフトウェアによる処理です。機械学習という用語は、1959年、IBMの研究者であり、世界で始めて学習型のチェッカーゲームを開発したアーサー・サミュエルの造語とされています。
機械学習とは何かという概要を踏まえた上で、ディープラーニングや人工知能との違い、そして機械学習のアルゴリズムについて解説します。
機械学習とは
機械学習は、人工知能の根幹を成す技術として位置付けられます。しかし、膨大なビッグデータを分析するデータマイニング、工場で装置などの異常検知や予知保全に使われる技術は、機械学習と重なり合う分野です。
違いを整理すると、データマイニングは膨大なデータから、未知の特徴を採掘することを目的としています。一方、機械学習は既存のデータから発見した特徴を学習して、予測や推論を行います。事前に学習するデータの有無、学習した結果から次のアクションを起こす点で、機械学習はデータマイニングとは異なります。
また、異常検知や予知保全は、装置の老朽化や障害の発見など特定の領域に特化したパターンの抽出と予測を行います。機械学習は特化した領域だけではなく、汎用的な業務の遂行や予測を含みます。
とはいえ、データマイニングと異常検知や予知保全のビジネス向けソリューションでは、機械学習や人工知能を採用して、精度の向上や処理の高速化を実現している場合が数多くあります。したがって、人工知能と機械学習の導入が進んでいる領域といえるでしょう。
機械学習の3つのステップと機能
次に、機械学習のプロセスを以下の3段階に整理します。
- 膨大なデータから特徴量を抽出する
- 抽出した特徴量を使って、パターンやモデルを構築する
- 構築したパターンやモデルによって推論や予測を自動化する
機械学習において、「特徴量」は重要なキーワードです。特徴量は、機械学習によって推論や予測を行うために必要な数値化されたデータをいいます。人工知能といっても現在のレベルでは意識を持っていないため、極論をいってしまえば、計算機にすぎません。コンピュータが計算をするためには数値化されている必要があります。
人工知能は、非構造化データと呼ばれる画像や音声で学習することができます。しかし、そのまま学習するのではなく、数値化した後に学習します。画像認識の場合、写真を色分けしたデータに変換し、エリアのまとまりから、たとえば「これは猫である」という分類のパターンを抽出します。
パターンの抽出を繰り返すことにより、共通点や違いによって「猫」の法則性を発見します。これが特徴量です。さまざまな学習方法がありますが、基本的には特徴量で学習することによって精度を高めていきます。
法則性の学習を終えると、画像のパターンから猫であるかどうかの推論を自動化します。コグニティブ(Cognitive)という言葉が使われますが、人工知能は学習によって人間が認識するかのように、写真を見て猫を認識できるようになります。
機械学習とディープラーニングの違い
機械学習の関連用語に「ディープラーニング(Deep Learning)」があります。基本的に機械学習とディープラーニングは異なったものではありません。機械学習の精度を高める手段が、日本語では「深層学習」と呼ばれるディープラーニングです。
機械学習はニューラルネットワークという技術を採用することによって、飛躍的に精度を向上させました。
ニューラルネットワークは、人間の脳の神経細胞であるシナプスの働きを模倣して、入力層、中間層(隠れ層)、出力層という3つの層による処理を人工的に作り、複数の人工ニューロンのネットワークによって学習の精度をあげる仕組みです。このニューラルネットワークのうち、中間層(隠れ層)を多層構造にして深くしたものがディープラーニングになります。
したがって、機械学習の手法のひとつとしてディープラーニングがあるという位置付けです。初期段階の機械学習では、最終的な精度を高めるために、研究者が特徴量を調整していました。しかし、ディープラーニングではコンピュータが自動的に特徴量を学習します。
機械学習と人工知能の関係性
機械学習=人工知能という勘違いがあるかもしれませんが、厳密にいえば正しくありません。ふたつの用語の関係は、人工知能を実現するための機能として機械学習があるという位置付けです。
第3次の人工知能(AI)ブームによって「AIに仕事を奪われる!」という予測が大きく報道されました。危機感を抱いた人も多いのではないでしょうか。
しかし、いまのところ実用化されている人工知能は万能ではなく、多くの場合は業務のデータ処理の自動化を代替する特化型AIです。世界が大きく変わるシンギュラリティのインパクトが大きかったため、混乱を招いたといえます。その結果「人工知能は使えない」という早急な判断を下されるようにもなりました。
機械学習は人工知能の重要な機能ですが、人工知能のすべてではありません。機械学習を自動処理と考えることによって現在の業務を改善し、負荷軽減やコスト削減などの効率化が可能になります。
機械学習を正しく理解することが大切です。そのことによって、人工知能に任せることができる業務を見極めることができます。
機械学習のアルゴリズム
そこで機械学習を理解するために、どのように機械(コンピュータ)は学習するのか、アルゴリズムを紹介します。アルゴリズムとは、問題解決の手順や計算方法のことです。
教師あり学習(Supervised Learning)
正解を提示して行う機械学習で、機械学習の一般的なアルゴリズムになります。人間が学校で学習する場合と同じように、人間の先生が生徒のコンピュータに学習させることから、教師あり学習と呼ばれるようになりました。
たとえば画像認識の機械学習では、学習用データの画像に対して正解は猫というように、問題と正解のデータセットを使います。学習の過程で自動的に微調整を加えていきます。そして、一定のパフォーマンスを発揮するようになった段階で学習を終えます。
学習させる方法には「分類(Classification)」と「回帰(Regression)」があります。
分類のわかりやすい例としては、写真から花や動物を認識する学習があります。食材の販売では、顧客維持のために離反しそうな顧客を分類して検知することができます。回帰の手法を使うと、季節に合わせた適正な販売価格や、食品ロスを最小化するための弁当の仕入れ数など、実数値を予測できます。
教師なし学習(Unsupervised Learning)
正解を提示せずに、コンピュータによって正解を導き出させる機械学習です。正解がないという点で、教師あり学習と異なります。
教師なし学習では、データから共通する項目によってグループ分けする「クラスタリング(Clustering)」という方法がメインになります。クラスタはデータの集まりですが、教師あり学習の分類と異なる点は、事前に分類の正解を与えずにコンピュータがデータを構造化することです。データマイニングも基本的にクラスタリングの手法を基盤としています。
その他には、統計学の手法として主成分分析、マーケティングで用いられるアソシエーション分析、モノクロの写真に着色したり実在しない人物をコンピュータが描いたりすることが可能なGAN(Generative Adversarial Network:敵対的生成ネットワーク)などがあります。
強化学習(Reinforcement Learning)
強化学習は、正解がない点では教師なし学習と同じですが、スコアを設定します。このときスコアは「リワード(報酬)」と呼ばれ、スコアの最大化が機械学習の目的です。
囲碁に特化した人工知能のAlphaGoが人間を破ったことは有名ですが、機械学習の一部に強化学習が使われました。モビリティの先進技術として、自動運転が実現しつつあります。自動運転では、深層学習(ディープラーニング)と強化学習を組み合わせた深層強化学習(Deep Reinforcement Learning)によって安全性を向上させています。
まとめ
ディープラーニングの登場によって、機械学習といえばディープラーニングと解釈されがちです。機械学習が人工知能であるかのように言われることもあります。しかし、機械学習は人工知能の基盤となる技術のひとつであり、アルゴリズムを用いた計算処理にすぎません。夢を描くことは大切ですが、機械学習で何が可能か理解すると、ビジネスにおける人工知能に対する姿勢が変わるはずです。