「アルゴリズム(algorithm)」とは何でしょうか?広義には、何か物事を行うときの最善のやり方を意味します。一方、コンピューター分野にでは複雑な演算処理を素早く実施するための一連のプログラムのことです。
例えば、1本のキュウリから60個の半月切り(輪切りの半分)を作るのに最適な手順とは何でしょうか?天地を落とすことを数に入れないとし、30個の輪切りを作ってから一枚一枚半月切りにするとなると合計59回包丁を振ることになります。一方、キュウリを最初に縦半分に切り、それから60個の半月切りを作れば包丁を振る回数は30回に減少します。このように、物事を行う上で最良の手順をコンピューター分野ではアルゴリズムと呼ぶのです。
本記事でご紹介するのは、AI研究分野として主流となっている機械学習のアルゴリズムです。AIの知能を向上させていく過程では複雑な計算をたくさん必要とします。それを効率的に行うための機械学習アルゴリズムには、どのようなものがあるのでしょうか?
ディープラーニング
人間の脳神経系であるニューロンを模倣したニューラルネットワークにより、通常の機械学習と比べて革新的なほど知能が高いAIを作るためのアルゴリズムです。人間の脳内ニューロンは電気信号として情報を伝達し、その際にニューロン同士を接続するシナプスの繋がりの強さにより、情報の伝わりやすさが異なります。ニューラルネットワークは、この情報伝達プロセスにおける「重み」を機械的な方法で模倣したものです。
さらに、ニューラルネットワークは「入力層」「隠れ層」「出力層」にて情報の表現を行うものの、それだけでは単純な情報処理しかできません。そこで、情報の複雑さにも対応できるように層を限りなく増やしたものをディープニューラルネットワークと呼び、深層学習は層を増やして複雑さに対応したからこそ、分析精度が飛躍的に向上しました。
世界で最も難関なボードゲームとされる囲碁には、10の360乗という天文学的数字の手数があると言われています。このため、AIがプロの囲碁棋士に勝利するまでには10年間はかかると言われていたのですが、ディープラーニングが発展したことで想定より遥かに早く、AIは世界トップのプロ囲碁棋士に勝利しています。
パーセプトロン
パーセプトロンはニューラルネットワークの一種です。人間の脳神経系であるニューロンをモデル化し他もので、脳神経系は樹状突起と呼ばれる部位で細胞から複数の情報を受け取り、それが一定値に達すると信号を出力するようにできています。これをモデル化した形式ニューロンが提唱され、後にパーセプトロンに発展しました。
パーセプトロンは機械学習の基礎であり、ユーザーが受信したメールがスパム(迷惑)かどうかを判別するフィルタリングなどに活用され、与えられた情報をもとに2つ以上に分類する単純な機械学習に活用されています。
ロジスティック回帰
ロジスティック回帰は統計学や医療の分野で活用されているアルゴリズムです。パーセプトロンのように「0か1か」ではなく、物事の発生確率を分析するために活用するものとなります。ロジスティック回帰を使用すると、データを分類する際に高い信頼性を得られるのが大きな特徴です。
トピックモデル
膨大な文章の中から関連するキーワードや事項、話題になっているトピックを抽出する際に活用されるアルゴリズムです。単語が発生する確率を分析することからトレンド分析や、ウェブコンテンツの著作権違反を検査するためのコピペチェックツールなどでも採用されています。
ナイーブベース
トピックモデルと同じように、文章の分類に使用するアルゴリズムです。メールのスパム判定やウェブコンテンツとして投稿された記事のタグ付けなどに活用されています。また、単純ベイズとも呼ばれています。
バンディットアルゴリズム
目的となる変数(目的変数)に向けて試行錯誤を繰り返し、変数の拡大を目指すためのアルゴリズムです。答えのないところから最良の選択肢を見つけることに長けたアルゴリズムであり、身近な例を挙げると検索エンジンやコンテンツのレコメンド機能などに活用されています。
アダブースト
ランダムよりも少し精度が良いような弱い識別AIを組み合わせて、強い識別AIを作成しようとするアルゴリズムです。まずは弱い識別AIを適用し、誤分類したものの重みを増やして次にその重みがついたものを優先的に見て分類する、という作業を繰り返します。この繰り返しを行った重みをもとに、強い識別AIを作っていきます。
決定木
根本的な事象からある事象に到達する前の条件とは何か?を分析するためのアルゴリズムです。例えばECサイトにおいてAという商品を購入するまでの条件を分析し、商品を購入したユーザーと購入しなかったユーザーのデータ(性別、年齢、地域など)をもとの条件分岐を行い、どんなプロセスならばAという商品が購入されるかの予測を立てます。条件ごとに分岐して行くことで樹木型のモデル図が作成されるため、決定木と呼ばれています。
Random Forest
決定技を複数活用し、その結果を組み合わせることで分析精度を挙げるためのアルゴリズムです。ただし、Random Forestでは大量のデータを活用することから、決定技よりも難易度は高くなります・機械学習の中では最近提唱され始めたアルゴリズムの一つで、身近なところで言うとマイクロソフトのジェスチャー入力などに活用されています。
K-means
K-meansはクラスタリングと呼ばれる、性質の近いデータ同士をグループ分けするためのアルゴリズムです。事例としては、マーケティングにおける顧客のグループ分けなどが該当します。データを分類するクラスタリングの中では古典的なアルゴリズムの一つなので、汎用さに富んでいます。
SVM(サポート・ベクター・マシン)
SVMはパーセプトロンを発展させたアルゴリズムで、基本的には与えられたデータを2つに分類するために活用します。他のアルゴリズムに比べて精度の高い結果を得られるのが特徴です。
機械学習アルゴリズムを学ぼう
AIおよび機械学習は年々大きく発展しています。今では様々な分野で活躍しており、現在もその幅を広げています。今後特に注目されてるのはビジネスシーンでのAIや機械学習です。すでに、会社が持つ膨大なデータの中からAIが必要なデータを取捨選択し、分析することで経営上のアドバイスを行うようなことが実現しています。そのため、今後はいかにしてAIと共存しながらビジネスを遂行していくかがとても重要になるでしょう。皆さんの会社でも、少し考えてみるとAIや機械学習を活用できるシーンが多々あるでしょう。AIや機械学習をビジネスに取り入れるためのサービスを提供するベンダーも増えていますので、この機会にAIや機械学習による新しいビジネス価値の創出にチャレンジしてみてはいかがでしょうか?