音声認識の仕組みとは？AIとの関係性や活用例をわかりやすく解説

最終更新日:2024/02/08

音声認識について解説

SiriやGoogle音声アシスタントといった音声アシスタントアプリケーションは、もはや当たり前の存在となりつつある状況です。実際にこれらの音声アシスタントアプリケーションを利用して、情報を検索している方も多いのではないでしょうか。

そんな音声アシスタントアプリケーションが高い精度で私たちの声を聞き取り、適切な回答ができるのは、音声認識にAIが活用されているからです。

本記事では、AIがどのような仕組みで音声認識を行っているのか、詳しくご紹介します。

音声認識について詳しく知りたい方は以下の記事もご覧ください。
音声認識とは？AIを使った仕組みや特徴をわかりやすく解説！無料製品や事例も紹介！

音声認識システムとは？

■音声認識とは？｜人工知能を搭載した製品・サービスの比較一覧・導入活用事例・資料請求が無料でできるAIポータルメディア

音声認識システムとは、人間が発した言葉や声や会話をAIが解析し、テキストデータへ変換して出力するシステムです。音声認識システムの登場により、これまで音声のテキスト化に要していた工数や時間が圧縮され、あらゆる業態における業務効率化が期待されています。

音声認識と聞くと、SiriやGoogle音声アシスタントを想像する方もいるかもしれません。SiriやGoogle音声アシスタントは、厳密には「音声アシストアプリ」という表現が適切です。

SiriやGoogle音声アシスタントにおける音声認識は、あくまでもそのアプリケーションの技術の一部に過ぎません。音声を認識し、テキストとして表示する部分が音声認識システムであり、音声アシスタントアプリを構成する技術のひとつなのです。

音声認識システムの歴史

音声認識について本格的な研究が開始されたのは、1971年のアメリカだとされています。軍事関連の研究を行っているアメリカ政府の機関「国防高等研究計画局」が音声認識についての研究に着手したことで、少しずつ技術が発展していきました。

そして、1975年には、ITサービスの大手企業であるIBMが、民間では世界初となる音声認識技術を開発して注目を集めますした。その後、Microsoftが「Windows 95」にスピーチツールを搭載したことでさらに話題を呼び、2011年にはiPhone 4SにSiriが搭載されたことで、私たちにとって非常に身近な存在へとなっていったのです。

音声認識システムの仕組みをわかりやすく紹介

現代における音声認識システムは、大きく「DNN-HMM型」「End-to-End型」の2種類に分類されます。

DNN-HMM型は、音声の解析にはじめてAIを導入した音響モデルです。1990年代までは個々の音声データの時系列を解析し蓄積したモデル（音響モデル）から、どのような時系列データを生成されやすいのか確率を導き出す「GMM-HMM」が主流でした。その後、2010年代にAI技術の発展によるアルゴリズムの改善やハードウェアの発展を受け、音響モデルにAIを導入し音声認識の精度を高めた「DNN-HMM型」が主流となったのです。

2016年以降は、さらにAIを用いた音声認識技術が発展。新たに「End-to-End型」が誕生しました。DNN-HMM型までで用いられていたHMM（隠れマルコフモデル）による確率定義を省略し、蓄積された音声データから直接文字列を推測する「End-to-End型」が台頭し始めています。

2022年現在、研究分野ではすでにEnd-to-End型が主流となりつつありますが、一方でプロダクトにおいてはDNN-HMM型が多く用いられています。そのため、本記事でも、現状一般的に用いられやすいDNN-HMM型を念頭に解説します。

音響分析

音響分析とは、マイクに入力された音声を分析し、コンピューターが扱えるデータに変換する作業のことです。AIは、人間と同じように生の録音データから音声を認識することはできません。そのため、AIが認識できるようにデジタル化し、ノイズの除去まで行う必要があるわけです。

そして、AIは音響分析によって抽出されたデータをもとに音声認識を進めていきます。

音響モデル

音響モデルとは、データ化された音声を過去に蓄積した学習データと照らし合せ、音の区切り（音素）を抽出する作業えです。音素は「音声を発した際に観測される音波の最小構成要素」であり、日本語であれば母音（アイウエオ）、擬音（ン）、子音（23種類）の3つから成り立っています。

例えば、「こんばんは」から音素を抽出すると「k-o-N-b-a-N-w-a」に分解されます。ただし、音響モデルではあくまで音素への分解が行われるだけですので、適切なテキストへの出力はこの後に説明する言語モデルが必要です。

一般的に、学習データでは数千人、数千時間の人間の声を統計的に処理したデータが用いられます。そして、音素を抽出することによって、初めてAIが音声をテキスト化する上で必要な情報が得られるのです。

言語モデル

言語モデルとは、単語群を文章化していくための作業のことです。例えば、「こんにちは。今日は寒いですね。」という文章は、もともと「こんにちは」「今日は」「寒いですね」といった単語群で成り立っています。

このような単語群を文章化する際には、日本語テキストを多く収集して統計処理したデータをもとに、可能性の高い組み合わせ例を参考にしながら意味のある正確な文章として整形していくわけです。

発音辞書とは

音響モデルと言語モデルを繋ぐ役割を担っているのが、発音辞書です。音響モデルによって抽出された音素の並びを組み合わせて、単語として構成していく際における「データベース」の役割を担っています。

例えば、「今日はいい天気ですね」という言葉を音素へ分析すると「ky-o-u-w-a-i-i-t-e-N-k-i-d-e-s-u-n-e」となります。これらの音素を発言辞書に照らし合せて連結することで「今日は」「いい」「天気」「ですね」という単語に変換され、「今日はいい天気ですね」というテキストが出力されます。

発音辞書を利用した音素の連結によって初めて、単語に相当する単語音響モデルを構築できるのです。

言語モデルの種類

言語モデルの手法として、主に「隠れマルコフモデル」「N-gram」の2種類が用いられています。

隠れマルコフモデルは、特定の単語の後にくる次の単語を確率で推定するための手法で、推定する単語は、分析した膨大な量の日本語データから導き出されます。

例えば、「私は」の後に続く言葉の確率が「楽しい（60%）」「苦しい（20%）」、「楽しい」に続く言葉が「です（70%）」「が（20%）」「よ（10%）」というように、現在の状態から次の状態に遷移する方法を定義します。

一度遷移した先から戻らないモデル（Left-to-Right HMM）と戻れるモデル（Ergodic-HMM）があり、言語モデルではErgodic-HMM が用いられることが少なくありません。

N-gramは、連続する単語や文字のまとまりを用いる手法です。「今日はいい天気です」をn=3（3-gram）の単語で区切る場合、次の3つの3-gramが含まれていると考えられます。

今日　は　いい
は　いい　天気
いい　天気　です

また、n=5の文字で区切る場合には、以下の5-gramが存在します。

今日はいい
日はいい天
はいい天気
いい天気で
い天気です

このように、ｎ-gramは文字や単語を単位とした繋がりから文字列を推測します。

テキストを出力

音響分析、音響モデル、言語モデルの過程を経て、最終的に自然な文章と判断された結果がテキストとして出力されます。

ただし、出力結果は必ずしも希望の状態になるとは限りません。期待した通りの結果にならなかった場合は、さらなる学習や各工程の調整を行い、テキスト出力の精度を高める必要があります。

AIを活用したEnd-to-Endの仕組み

近年、音声認識システムに用いられている手法が「End-to-End型」。End-to-End型は、従来の音声認識システムに比べシンプルな構造で音声のテキスト化が可能です。

現在主流となっているDNN-HMM型は、すでに解説したように以下の流れで音声のテキスト化を行います。

音響分析
音響モデルによる音素の抽出
発話辞書による単語のマッピング
言語モデルによる単語の文章化
テキスト出力

このように複数のモジュールを組み合わせて音声をテキスト化していましたが、End-to-End型では音響分析以降をひとつのモジュールで処理を行います。

音響分析
AI学習モデルによる処理
テキスト化

End-to-End型はシンプルな構造であるため、ネットワークの軽量化が容易である点がメリットです。また、複数のモジュールそれぞれの限界により誤差が生まれやすいDNN-HMM型に比べ、単一モジュールであるため高精度の出力を生むという特長もあります。

AIを活用した音声認識のメリット

そんな中、最近ではディープラーニング（深層学習）を行うAIと音声認識を組み合わせることで、さらに精度を高められるようになりました。また、より多様な場面で活用することもできるようになっています。例をいくつか見ていきましょう。

音声だけで命令を出せるようになる

従来、パソコンを操作して何かしらの命令を出すためには、マウスやキーボードを直接操作しなければなりませんでした。

マウスだと、ドラッグ＆ドロップなどの手間がかかりますし、キーボードに関しては入力の労力がかかるうえ、人によって入力スピードに差が生まれてしまいます。つまり、労力がかかる上にスピードを一定に保つこともできなかったわけです。

その点、AIを利用した音声認識であれば、文字の入力はもちろん、アプリケーションの起動・終了まで音声ひとつで行えるようになります。

また、プログラミング言語「Python（パイソン）」のカンファレンスなどでは、講演者の発音を正しく理解して音声認識したAIがプログラミングコードを入力するといった使い方もされています。

より「聞き取り」の精度を高められる

空港や駅のターミナルのような、大声で話す人が周囲にいる環境では、多くの人の声が入り混じる中で正確に声を聞き取り、適切な回答を示すことが難しいのが現実です。

しかし、AIを活用することによって、人間では聞き取るのが難しいような状況下においても正確に音を聞き分けられるようになります。

一例として、通信事業の大手であるNTTが開発した技術が挙げられます。NTTが開発したAIは、ノイズキャンセリングイヤホンのような仕組みでノイズを減らし、必要な音だけを効率的に聞き取ることが可能です。

誤認識を減らし、信頼性を高められる

データ入力、電話対応といった事務作業は、比較的機械的な作業ではあるものの、時間がかかってしまう傾向にあります。また、人の手による作業ではミスが生まれにくい業務でもあるため、「できる限り効率的にミスなく進めたい」と考える方も多いのではないでしょうか。

AIを活用した音声認識であれば、データ入力を自動化させることができるだけなく、その精度も高くすることができるため、企業としての信頼性向上につなげられるでしょう。また、人の手による作業が必要なくなるため、人手不足という問題を抱える企業の「業務効率化」にも大きく貢献します。

AI音声認識システムが抱える課題点やデメリット

近年のAIの発達により、音声認識システムは目覚ましい進歩を遂げ、あらゆる場面で活躍を見せるようになりました。一方で、技術的に発展途上であるため、まだまだ多くの課題やデメリットを抱えています。

方言・独自の言葉遣いに対応しきれていない

一般的な標準語への対応が急速に進む一方、独自の言葉遣いへは対応しきれていないのが現状です。

方言やスラング、業界用語や若者言葉など、「知る人が聞けば理解できるが使用者が多くない」言葉の多くは、サンプルが少ないこともあって正確なテキスト化ができないだけでなく、標準語部分の推測に対するノイズとなり、出力結果に影響を与えるケースが少なくありません。

独自の言葉遣いへ正確に対応していくためには、一定の時間が必要です。今後、音声認識技術の発展と非頻出単語の学習が進むことで、より精度が上がると考えられます。

発言者の識別が困難

音声認識システムが抱えるもうひとつの課題が、「発言者の識別」です。現状の音声認識システムの多くは、音響モデルで話者識別を行っておらず、出力されるテキストには話者に関する情報が含まれません。

話者識別は、事前に登録した生体データに基づく解析を行う方式と、音声処理アルゴリズムによって話者を区別する方式に分類されます。前者は限定された状況下でしか利用できないため、一般向けのサービスではなかなか利用できません。後者は技術開発が進んでおり、今後多くのサービスへの導入が期待されています。

AI音声認識システムの活用場面・できること

そんな中、最近ではディープラーニング（深層学習）を行うAIと音声認識を組み合わせることで、さらに精度を高められるようになりました。また、より多様な場面で活用することも可能になっています。例をいくつか見ていきましょう。

議事録

会議の内容を記録する「議事録」は、より正確かつスピーディーに作成していく必要があります。しかし、担当者の知識やスキルによっては作成スピードに差が生まれてしまうケースも珍しくありません。

最近では、AIを活用した音声認識によって自動で議事録を作成できるツールも増えてきました。そういったツールを有効活用することで、より議事録作成を効率化することが可能になるでしょう。

議事録は、以下のようなケースや部署・メンバーにおすすめです。

社内会議のたびに議事録を残しておく必要がある部署
商談など、会議の証跡を残す必要がある業務に携わる人
インタビューなど、内容を資料として残す必要がある会話の記録

翻訳機

最近では、AIを活用した音声認識による翻訳機も増えてきました。例えば、翻訳機として高い知名度を誇る「ポケトークW」は、Googleなどの検索エンジンに接続することで、ユーザーが発音した内容を調査できる仕組みです。

そのため、適切な意味を理解して会話を返すことが可能です。さまざまな言語に対応しており、アメリカ英語やイギリス英語、カナダ英語といった細かな言語の違いにも対応できる点は大きな魅力だといえるでしょう。

従来、通訳者を介してコミュニケーションが行われていた場でも、今後はこういった翻訳機で完結できるようになるかもしれません。

このように、AIを活用した音声認識には多くのメリットがあり、すでに多くの業務に活用されている状況です。SiriやGoogle音声アシスタントなど、私たちにとって非常に身近な存在になりつつある音声認識も数多く存在します。こういった音声認識の仕組みは、私たちの生活をより豊かにする可能性を秘めているといえるでしょう。

翻訳機は、以下のようなケースや企業におすすめです。

海外事業との取引が多い企業
外国人観光客など、日本語ではない言語を使う利用客が多い店舗
複数言語による同時通訳が必要な会議

ボイスボット（対話型AI）

機械学習やディープラーニングを活用した音声認識によって、会話内容の把握だけでなく、対応そのものを自動化してしまうのが、「対話型AI/ボイスボット」です。人手を介さずに、問い合わせ対応を行えるようになるため、業務の自動化を実現できます。

企業によっては、オペレーターの人手不足が深刻化しているケースもあるでしょう。オペレーターが不足したままの状態では、問い合わせ対応のスピードが遅れてしまうため、顧客満足度の低下にもつながりかねません。

しかし、対話型AI/ボイスボットを活用すれば、ユーザーからの電話にも自然な通話のように自動対応が可能です。AIだけでは対応できない問い合わせのみ、オペレーターに転送する仕組みを構築すれば、「AIでは対応できない問い合わせのみを人間が対応していく」という効率的な業務環境を実現できます。

ただし、導入には一定のコストが必要。初期費用数万、月額はプランにより5～50万円程度とされていますが、10件までは無料、1コールごとの費用設定がある場合など、利用したい件数によっては低額での利用も可能です。

ボイスボット（対話型AI）は、以下のような企業におすすめです。

一般消費者からの問い合わせが多い企業
複数言語への対応が必要な企業
カスタマーサービスのコストを低減したい企業

音声合成による読み上げ

最近では、入力したテキストを自動で読み上げてくれる「音声合成ソフト」や、リアルタイムで声を変換するボイスチェンジャーなどの活用も広がっており、注目を集めています。音声合成（音声読み上げ）技術に関しては、無料でその技術を体感できるフリーソフトも多く提供されているため、今すぐ活用していくことも可能です。

音声合成ソフトは、もともと目が不自由な人や、小さな文字を読むのが困難な高齢者に向けて開発が進められていました。ホームページやテキストファイルなどの文字を機会が読み上げてくれれば、字を読むことができない人でも理解できるからです。

ただし、最近では上記の目的だけでなく、さまざまな領域で音声合成ソフトが活用され始めています。現在ではコンテンツ作成に利用されるケースが多くなってきていますが、もともとは「目が不自由な人」「文字を読むのが困難な高齢者」を対象に開発が進められたという背景を理解しておくことで、よりユーザー目線を大切にできるでしょう。

実は、官公庁などのホームページではすでに音声合成ソフトが導入されており、テキストを読み上げてもらうことが可能です。今後さまざまなサイトで音声合成ソフトが導入されていく可能性もあります。

音声合成による読み上げは、以下のようなケースや企業、個人におすすめです。