SiriやGoogle音声アシスタントといった音声アシスタントアプリケーションは、私たちにとって、もはや当たり前の存在となりつつある状況です。実際にこれらの音声アシスタントアプリケーションを利用して、情報を検索している方も多いのではないでしょうか。
そんな音声アシスタントアプリケーションが高い精度で私たちの声を聞き取り、適切な回答を行えているのは、音声認識にAIが活用されているからに他なりません。
今回は、どのような仕組みでAIが音声認識を行なっているか、詳しくご紹介していきます。
■音声認識とは?
まずは、冒頭でもご紹介した「音声認識」とはどのような仕組みのものなのか、詳しくみていきましょう。
SiriやGoogle音声アシスタントといったアプリケーションを「音声認識アプリ」と思われている方も多いかと思いますが、厳密には「音声アシストアプリ」という表現が適切なものになります。というのも、SiriやGoogle音声アシスタントにおける音声認識は、あくまでもそのアプリケーションの技術の一部に過ぎないからです。
音声認識は「人間の声を理解し、テキストに変換する技術」を指しますので、SiriやGoogle音声アシスタントなどに話しかけたときにテキスト変換されている機能が「音声認識」にあたります。
そんな音声認識ですが、本格的な研究が開始されたのは1971年のアメリカだとされています。軍事関連の研究を行っているアメリカ政府の機関「国防高等研究計画局」が音声認識についての研究に着手したことで、少しずつ技術が発展していきました。
そして、1975年にはITサービスの大手企業であるIBMが民間では世界初となる音声認識技術を開発して注目を集めました。その後、Microsoftが「Windows95」にスピーチツールを搭載したことでさらに話題を呼び、2011年にはiPhone4SにSiriが搭載されたことで、私たちにとって非常に身近な存在へとなっていったのです。
(参照:SPJ 音声認識の仕組みと、隠れマルコフモデル(HMM)入門)
■音声認識とAIを組み合わせるとさらに可能性が広がる
そんな中、最近ではディープラーニング(深層学習)を行うAIと音声認識を組み合わせることで、さらに精度を高められるようになりました。また、より多様な場面で活用することもできるようになっています。その一例をいくつか見ていきましょう。
・音声だけで命令を出せるようになる
これまで、パソコンを操作して何かしらの命令を出すためには、マウスやキーボードを直接操作しなければなりませんでした。マウスの場合、ドラッグ&ドロップなどの労力がかかりますし、キーボードに関しては入力の労力がかかる上に、人によって入力スピードに差が生まれてしまいます。つまり、これまでは労力がかかる上にスピードを一定に保つこともできなかったということです。
その点、AIを利用した音声認識であれば、文字の入力はもちろんのこと、アプリケーションの起動・終了まで音声ひとつで行えるようになります。
また、プログラミング言語「Python(パイソン)」のカンファレンスなどでは、講演者の発音を正しく理解して、音声認識したAIがプログラミングコードを入力するといった使い方もされています。
・より「聞き取り」の精度を高められる
空港や駅のターミナルのような、大声で話す人が周囲にいる環境では、多くの人の声が入り混じる中で正確に声を聞き取り、適切な回答を示すことが難しくなってしまいます。しかし、AIを活用することによって、人間では聞き取るのが難しいような状況下においても正確に音を聞き分けることができるようになるのです。
その一例として、通信事業の大手であるNTTが開発した技術が挙げられます。NTTが開発したAIは、ノイズキャンセリングイヤホンのような仕組みでノイズを減らし、必要な音だけを効率的に聞き取ることができるのです。
・誤認識を減らし、信頼性を高められる
データ入力、電話対応といった事務作業は、比較的機械的な作業ではあるものの、時間がかかってしまう傾向にあります。また、人の手による作業ではミスが生まれにくい業務でもあるため、「できる限り効率的にミスなく進めたい」と考える人も多いことでしょう。
AIを活用した音声認識であれば、データ入力を自動化させることができるだけなく、その精度も高くすることができるため、企業としての信頼性向上につなげることができるでしょう。また、人の手による作業が必要なくなるため、人手不足という問題を抱える企業の「業務効率化」にも大きく貢献します。
■AIを活用した音声認識の仕組みはさまざまな業務を効率化
このように、AIを活用した音声認識は、より高い精度での音声認識が可能になることがお分かりいただけたでしょう。さらに最近では次のような実用化も進んでいる状況です。
・議事録
会議の内容を記録する「議事録」は、より正確かつスピーディーに作成していく必要があります。しかし、担当者の知識やスキルによっては作成スピードに差が生まれてしまうケースも珍しくありません。しかし、最近ではAIを活用した音声認識によって自動で議事録を作成できるツールも増えてきています。そういったツールを有効活用することで、より議事録作成を効率化することができるようになるでしょう。
・翻訳機
最近では、AIを活用した音声認識による翻訳機も多くなっています。翻訳機として高い知名度を誇る「ポケトークW」は、Googleなどの検索エンジンに接続することで、ユーザーが発音した内容を調査することができる仕組みです。そのため、適切な意味を理解して会話を返すことができます。さまざまな言語に対応しており、アメリカ英語やイギリス英語、カナダ英語といった細かな言語の違いにも対応できる点は大きな魅力といえるでしょう。
これまで、通訳を介してコミュニケーションが行われていた場でも、今後はこういった翻訳機で完結できるようになるかもしれません。
このように、AIを活用した音声認識には多くのメリットがあり、すでに多くの業務に活用されている状況です。SiriやGoogle音声アシスタントなど、私たちにとって非常に身近な存在になりつつある音声認識も数多く存在します。こういった音声認識の仕組みは、私たちの生活をより豊かにする可能性を秘めているといえるのではないでしょうか。
(参照:iedge 音声認識の仕組みとは?AI活用のメリットと音声認識技術の最新事例【テクノロジー・AI 入門編】)