AIsmiley Magazine

AIsmiley編集部によるAI・人工知能サービスの導入事例や活用事例などの情報を記事にしてお届けします

AI・人工知能サービス

2019/10/1

IBM Watsonの音声認識「Speech to Text」とは?


IBM Watsonの音声認識「Speech to Text」とは|人工知能を搭載した製品・サービスの比較一覧・導入活用事例・資料請求が無料でできるAIポータルメディア

近年、さまざまな業務にAIの技術が用いられています。その中でも音声認識は、AIによって能力が格段にアップする分野といえるでしょう。実際に、世界中の企業でAIを用いた音声認識が活用されている状況にありますが、日本でもIBMの「Watson」が注目を集めています。

中でも「Speech to Text」という「Watson」のAPIは、いちはやく日本語に対応するなど、日本の音声認識におけるパイオニア的存在です。今回は、「Watson」の「Speech to Text」を中心に、音声認識技術がどのように活用されているのかを詳しく見ていきましょう。

 

■そもそも音声認識とはなんなのか?

音声認識には「音声を文字に変換する技術」「文字を音声に変換する技術」の2種類が存在します。これまでは専用の機器を用いるのが一般的でしたが、最近はスマートフォンのアプリなどでも手軽に音声認識の機能を使えるようになりつつあります。

また、音声認識は活用の用途も広がりつつあり、ビジネスシーンでいえば会議の際の議事録を作成したり、カスタマーセンターで問い合わせを受けた際の会話内容を文字化したりと、さまざまな形で活用されています。

そんな音声認識の技術の中でもIBM「Watson」の「Speech to Text」は、いち早く日本語に対応したAPIとして知られており、特に注目を集めている存在です。

IBMの基礎研究所では、30年以上も日本語の音声認識を研究してきており、現在では多くの企業が「Speech to Text」を業務に活用しています。ここからは、多くの企業がどのように「Speech to Text」を利用しているのか、その活用事例をみていきましょう。

 

■Speech to Textの実用例。カスタマーセンターで特に重宝

Speech to Textの実用例。カスタマーセンターで特に重宝|人工知能を搭載した製品・サービスの比較一覧・導入活用事例・資料請求が無料でできるAIポータルメディア

IBM「Watson」には、音声系のAPIが2つ存在します。ひとつは音声からテキスト書き起こしを行う「Speech to Text」、もうひとつはテキストから自然な声を合成する「Text to Speech」です。これら2つの音声技術はすでに多くの場所で実用化が進んでいる状況ですが、とくに「Speech to Text」はカスタマーセンターを持つ企業への導入が進んでいます。

 

たとえば、カスタマーセンターに質問の電話が寄せられた際、オペレーターが顧客と話している内容を「Speech to Text」に聞かせておきます。これにより、「Speech to Text」は会話の内容をテキスト化するため、オペレーターが目でも会話内容を確認できるようになるわけです。

さらに顧客が自社製品などの固有名詞を口にした場合には、その製品の説明書やFAQなどのガイドをオペレーターの画面に示すことなどもできます。まさに、オペレーターの負担を一気に軽減させられるシステムといえるでしょう。

他にも、会議における発言のテキスト化や、議事録の作成といった場面でも重宝されています。また、ビジネスの場以外でも音声認識の活用は広まりつつあり、最近では家電などにも導入されている状況です。実際に「Speech to Text」では、スマートフォンのアプリ、IoT家電などの音声による操作を実現しています。

(参照:IBM Watsonオフィシャルサイト Speech to Text (音声認識)ディープ・ラーニングを活用して、音声からテキストを書き起こす)

 

■Watsonの音声認識「Speech to Text」に期待できること

多くの分野で導入が進む音声認識ですが、企業によっては、カスタマーセンターに幅広い分野の質問が寄せられることなどもあるでしょう。そのような場合、オペレーター自身に幅広い知識が備わっていなければ、適切に対応できない可能性もあります。当然、幅広い知識を蓄えている熟練のオペレーターであれば問題はありませんが、必ずしも全員が知識を網羅しているとは限りません。したがって、オペレーター業務のすべてを人の手だけで行おうとした場合、品質にムラが生まれてしまうのです。

しかし、IBM WatsonのSpeech to Textを活用し、適切な回答候補を提示してもらえる環境を構築すれば、オペレーターの経験に関係なく一定のクオリティで対応ができます。それは社内の生産性向上にも大きな影響を与えるものといえるでしょう。人手不足が叫ばれる昨今において、音声認識システムの導入は企業の将来を左右する鍵となるかもしれません。

 

IBM Watsonのサービス比較と企業一覧を見る

 

この記事で紹介されたAIサービスを無料で資料請求