AIsmiley Magazine

AIsmiley編集部によるAI・人工知能関連のコラム、ニュース、サービスなどの情報をお届けします

業態業種別-AIの導入活用事例-

2019/5/28

Googleの音声認識サービス「Cloud Speech-to-Text」で文字起こしが可能に

  • コールセンター
  • Watson(ワトソン)
  • 音声認識・翻訳・通訳

Googleの音声認識サービス「Cloud Speech-to-Text」で文字起こしが可能に|AI・人工知能製品・サービス・ソリューション・プロダクト・ツールの比較一覧・導入活用事例・資料請求が無料でできるメディア

Googleのクラウドベースの音声認識サービス「Cloud Speech-to-Text」が性能を強化しています。機械学習により精度が向上した同サービスを活用すれば、インタビューなどの文字起こしのほか、会議や打ち合わせの議事録作成、コールセンターでの通話記録の作成なども自動化できるようになるのでしょうか。
今回は、この「Cloud Speech-to-Text」についてまとめました。

 

■音声認識サービス「Cloud Speech-to-Text」はサポート言語が21言語、句読点も自動対応

Googleによると、 データの共有に同意した顧客からの提供データをAIに学習させたことで、サービスの性能が飛躍的に向上し、今では単語の誤りも半分以下に減ったといいます。なお、プライバシーやデータの利活用に不安を感じるユーザーは、共有に同意しないことも可能です。
2016年にリリースされたGoogle Cloud Speech APIは、電話やビデオからの文字起こしのほか、長時間の音声ファイルを再生することも可能で、音声の検索や音声コマンドもサポートしています。また、2018年にはピリオド、カンマ、疑問符といった句読点を自動的に挿入するツールのβ版も公開しました。2019年2月時点でのサポート言語の総数は21言語(方言も含む)で 、飛躍的にその性能を高めています。

(参照:ZDNet Japan グーグルの「Cloud Text-to-Speech」と「Cloud Speech-to-Text」がアップデート)

 

■ Cloud Speech-to-Textでコールセンターの通話記録を自動変換

Cloud Speech-to-Textでコールセンターの通話記録を自動変換|AI・人工知能製品・サービス・ソリューション・プロダクト・ツールの比較一覧・導入活用事例・資料請求が無料でできるメディア

Cloud Speech-to-Textを実際にビジネスの現場で活用する取り組みも始まっています。安価で機動力のあるクラウド型のPBXやコールセンターなどを開発するClocoは2018年11月、クラウド型コールセンターシステム「Cloco(クロコ)」にGoogle Cloud Speech-to-Text を利用した音声テキスト化機能を搭載。 これまで、音声を聞きながら手入力する必要があったコールセンターの通話記録をボタン一つで自動変換できるシステムを発表しました。
同システムには「音声テキスト化語彙機能(共通語彙機能)」や一時的にその音声のみに語彙を反映させる「追加語彙機能」といった機能も備わっており、専門用語や特定の言葉を登録すれば、さらに認識精度が向上します。
また、通話内容だけでなく、留守番電話の音声テキスト化も可能です。
コールセンターは労働集約型産業のひとつで、昨今の労働力人口の低下に伴い、人員不足が懸念されている業界です。既存のスタッフのリテンション(引き留め)や新規スタッフの強化に向けて業務の効率化が叫ばれており、こうした自動化技術が必要とされています。

(参照:PR TIMES Cloco, Google Cloud Speech-to-Text をクラウドコールセンターに導入)

 

■多言語会議も怖くない、IBM Watsonは音声認識で会議内容をリアルタイム変換

一方、Cloud Speech-to-Textの競合であるIBM Watsonも手をこまねいてはいません。Watsonの音声認識機能である「Watson Speech to Text」を用いた会議支援サービス「AI Minutes for Enterprise」では 日本ユニシスグループのエス・アンド・アイ社がiPhoneアプリ「AI Conference」で会議内容をリアルタイムにテキスト化するオプションを開始しました。従来は専用マイクとPCの組み合わせが必要でしたが、アプリ化したことで、出張での活用も可能になっています。
AI Conferenceは、iPhoneからAI Minutesで作成された「会議」への参加や会話内容のテキスト表示・閲覧をリアルタイムで利用できるアプリケーションです。発話者ごとのやりとりが会話形式で表示され、会議への参加が遅れた場合でも過去のやりとりを参照可能です。また、テキスト入力モードでの参加も可能なので、周囲の雑音が大きかったり、発話しにくかったりといった場所からの参加もできます。
さらに、「Watson Language Translator」による多言語対応もしているため、英語、北京語、スペイン語といった多言語での会議でも、発言が参加者それぞれの設定言語に変換・表示されます。
テキスト表示された内容はコピー・編集も可能なので、Todoリストづくりや議事録作成の効率化にも役立つでしょう。

(参照:PR TIMES IBM Watsonを活用した会議支援サービス「AI Minutes for Enterprise」のiPhoneアプリ「AI Conference」の提供で”働き方改革”を促進)

 

Watsonを活用したエス・アンド・アイ社のAIサービスを資料請求する|AI・人工知能製品・サービス・ソリューション・プロダクト・ツールの比較一覧・導入活用事例・資料請求が無料でできるメディア

 

■音声認識の活用で効率的な働き方を模索しよう

このように、AIによる音声認識サービスは飛躍的に性能を高めており、音声を文字に変換して活用するさまざまなサービスが登場しています。業務効率化の一環として、こうしたサービスを活用し、モバイルベースでの効率的な働き方を模索してみてはいかがでしょうか。