AIsmiley Magazine

AIsmiley編集部によるAI・人工知能サービスの導入事例や活用事例などの情報を記事にしてお届けします

AI・人工知能サービス

最終更新日:2020/5/7

人間の動作に近い?強化学習の仕組みと実例を解説

  • 業種・業態
  • 編集部記事

人間の動作に近い?強化学習の仕組みと実例を解説|人工知能を搭載した製品・サービスの比較一覧・導入活用事例・資料請求が無料でできるAIポータルメディア

IT業界だけでなく、農業や漁業、医療といったさまざまな分野でAI・人工知能が活用され始めています。多くの人に認識され始めており、今では非常に身近な存在となりつつあるでしょう。しかし、AIという言葉を聞いたことがある方でも、その具体的な仕組みまでは理解できていないという方は多いのではないでしょうか。

特に、「機械学習」「深層学習」「強化学習」などといった言葉は、聞いたことはあっても詳しい意味までは分からないという方が多いのではないかと思います。そこで今回は「強化学習」にフォーカスし、仕組みや実例について詳しく解説していきますので、ぜひ参考にしてみてください。

■強化学習とは?

■強化学習とは?|人工知能を搭載した製品・サービスの比較一覧・導入活用事例・資料請求が無料でできるAIポータルメディア

強化学習とは、機械学習のアルゴリズムのひとつであり、「システム自身が試行錯誤を繰り返して最適なシステム制御を実現していく仕組み」のことを指します。機械学習には、教師あり学習や教師なし学習のように、明確なデータをもとにした学習方法も存在しますが、強化学習の場合は明確なデータをもとにするわけではありません。

プログラム自体が与えられた環境の観測を行い、一連の行動結果を踏まえた上で、より価値のある行動を学習していくという仕組みです。そして、その行動についての評価も自ら更新していきます。さまざまな行動を試しながら、より価値のある行動を探していくという点を踏まえると、人間の動作に近いものといえるかもしれません。

そんな強化学習ですが、この概念自体は近年のAIブームよりも前から存在していました。強化学習の原型といえるものは、機械の自律的制御を実現する「最適制御」の研究が行われていた1950年代から存在していたのです。なお、1990年代には強化学習の生みの親とされるリチャード・サットン教授(カナダ・アルバータ大学)を中心としたチームにより研究が進められていたといいます。

このように、強化学習の原型といえるものは古くから存在していたわけですが、そこに飛躍的な進歩をもたらしたのが「深層強化学習」というものです。これは、従来の強化学習に深層学習(ディープラーニング)を応用したものであり、強化学習を軸として稼働するAIが世間に広まるきっかけとなりました。

 

■強化学習によって何が実現できるのか?

■強化学習によって何が実現できるのか?|人工知能を搭載した製品・サービスの比較一覧・導入活用事例・資料請求が無料でできるAIポータルメディア

では、強化学習によって具体的に何ができるようになるのでしょうか。ここからは、強化学習でできることについて詳しく見てきましょう。

 

・ゲーム

アーケードゲーム「ブロック崩し」は多くの方が一度はプレイしたことがあるのではないでしょうか。このゲームでは、強化学習を使用するAIが人間を上回るスコアを記録しています。Atariという会社が出していたブロック崩しゲームを、DeepMind社が開発したAI(強化学習を使用)に学習させたところ、49本のゲームのうち半分以上で、人間と匹敵するスコアもしくは人間を上回るスコアを記録したのです。さまざまな行動を試しながら、より価値のある行動を探していったからこそ得られた結果といえるでしょう。

 

・自動運転

自動車における自動運転も、強化学習が活用されている分野のひとつです。Prefferd Networks社という日本の企業が行っている研究では、自動車の幅に対して道の幅が狭く、車が密集している交差点のような難しい状況下において、強化学習でどれだけ運転の精度を高められるかという実験が行われています。

この技術を用いることにより、前後左右のすべての方向を集中してみることが可能になるため、前方向と同じように後方向にも躊躇なく移動することができるそうです。

 

・エレベーターの制御システム

近年は高層ビルが増加していることもあり、エレベーターの制御は極めて重要な役割を担っています。ただし、エレベーターの安全性を高めるのはもちろんのこと、エレベーターの利便性を高めることも、良いエレベーター制御システムの条件のひとつです。そのため、客の待ち時間が長くなってしまうエレベーターの制御システムは高く評価できません。

特に、デパートやオフィスビル、タワーマンションといった、毎日大勢の人々が乗り降りする場所には欠かせない条件といえるでしょう。エレベーターは簡単に増設することもできませんから、台数と定員を変えずに待ち時間を短くする必要があるのです。

そこで活用されるのが、強化学習です。数理的な手法で割り当てを行うにしても限界があるため、強化学習によって過去の経験にもとづいた最適な選択肢を選ぶことで、より柔軟にエレベーターを稼働させることが可能になります。もちろん、日々の運行履歴も学習していくため、新たな学習データを追加した上で、より最適な判断方法にアップデートしていくことも可能なのです。

そのため、エレベーターの待ち時間が長くなってしまっている建物などは、特に強化学習を導入するメリットが大きいといえるでしょう。

 

■強化学習を行うためのプラットフォーム

強化学習を行うためのプラットフォームは複数存在しますが、言語としてはPythonが使用できれば、フレームワークの利用だけで簡単に実装可能です。ここからは、特に知名度の高い強化学習をするためのプラットフォームをご紹介していきますので、ぜひ参考にしてみてください。

 

・ChainerRL

強化学習で実装されているアルゴリズムが多いプラットフォームです。比較的初心者でも簡単に理解できる「Chainer」と組み合わせて使用することができるため、まだ強化学習に慣れていない方におすすめのプラットフォームといえるでしょう。

 

・RLlib

強化学習で実装されているアルゴリズムも多々あり、学習状況も確認しやすいプラットフォームです。ただし、RLlibは「強化学習がどのような形で実装されているのか」といった部分は確認しにくいため、「Chainer」と比べて経験が豊富な人向きといえるかもしれません。

 

・Keras―RL

他のプラットフォームと比べて、強化学習で実装されているアルゴリズムは少ないプラットフォームです。ただ、「どのような形で実装されているか」という部分は見やすくなっています。メジャーな存在であるKerasと組み合わせて利用できることも大きな特徴といえるでしょう。

強化学習が本格的にビジネスに活用されるようになるのは、もう少し先の話かもしれません。しかし、機械学習の手法の中でも最先端であり、特に注目を集めている存在であることも事実です。今後どのような進化を遂げていくか、ますます目が離せません。

 

強化学習・機械学習関連記事一覧を見る

 

このAI記事が気に入ったら
いいね ! しよう

Twitter でAIポータルメディアAIsmileyを
この記事で紹介されたAIサービスを無料で資料請求