AIsmiley Magazine

AIsmiley編集部によるAI・人工知能サービスの導入事例や活用事例などの情報を記事にしてお届けします

AI・人工知能サービス

自然言語処理とは!?できることをまとめたNLP入門書

  • 業種・業態
  • 編集部記事

自然言語処理とは!?できることをまとめたNLP入門書|人工知能を搭載した製品・サービスの比較一覧・導入活用事例・資料請求が無料でできるAIポータルメディア

近年はさまざまな技術の発展により、より高度なサービスを提供する事例が多くなりました。それは、コミュニケーションを図る上で必要不可欠な「言語」という分野においてもいえることであり、機械翻訳や、かな漢字変換などの「自然言語処理」にも活用されているのです。

では、この「自然言語処理」とは一体どのようなものなのでしょうか。今回は、自然言語処理の仕組みについて詳しく解説していくとともに、活用事例や自然言語処理AIサービスなどもご紹介していきますので、ぜひ参考にしてみてください。

■自然言語処理とは

■「自然言語」とは?|人工知能を搭載した製品・サービスの比較一覧・導入活用事例・資料請求が無料でできるAIポータルメディア

自然言語処理についてご紹介する前に、まずは「そもそも自然言語とは何なのか」という点から詳しく掘り下げていきましょう。自然言語とは、私たち人間が日常的に話したり書いたりしている日本語や英語、フランス語といった「自然な言語」のことを指します。この自然言語の対照的な存在が、プログラミング言語です。

プログラミング言語には一切の曖昧性がありませんが、自然言語には曖昧性があるため、その言葉(文字)の意味を正しく理解することは決して簡単なことではありませんでした。

例えば、「黒い目の大きい金魚」という言葉があったとします。この場合、「“目が黒い”“大きな金魚”」というニュアンスにもなりますし、「“黒い色”の“目が大きな金魚”」というニュアンスにもなるわけです。そのため、本来伝えたい意味とは異なって伝わってしまうというケースも少なくありません。

その点、プログラミング言語の場合は、「5+3+1=9」といった計算式のように、答えがひとつしか存在しません。コンピューターの制御を行うためのプログラムを記述する言語なので、すべてのコンピューターが同じ解釈をすることができるわけです。だからこそ、プログラミングにおいて「コンピューターごとに異なる動きをしてしまう」という事態が引き起こることはありません。

 

●自然言語処理の歴史

自然言語処理の歴史は、1940年代まで遡ります。1940〜1960年頃は黎明期と呼ばれており、1946年に初めてコンピュータが誕生しました。当初は、弾道計算や暗号解読といった軍事利用が主な目的だったといいます。しかし、ロックフェーラー財団のウィーバーが、このコンピュータが翻訳にも活用できるかもしれないと考えたことがきっかけとなり、米国内で機械翻訳への関心が高まっていきます。

そして1952年、ジョージタウン大学とIBMが共同で翻訳プロジェクトを始動し、ロシア語から英語に翻訳を行うという小規模な実験が行われました。これが、自然言語処理の始まりです。その後、アメリカはソ連の科学技術の実態をリサーチするために、「ロシア語→英語」の翻訳に関連する研究に、膨大な研究予算を投入しました。そうして、機械翻訳は一気に進展していったのです。

1960〜1990年頃は忍耐期と呼ばれており、莫大な研究費を費やすものの、研究が進展するごとに問題の難しさが認識されるような状況になったといいます。1967年には、Brown Corpusという米国の言語の仕様を調査する目的で、電子化された文書として初の100万語規模のコーパスが発表されました。コーパスとは、テキスト文書の集合に特定の情報を付与したもののことです。1970年代に入り、コンピュータの処理能力向上とともに言語やテキストを扱う環境も少しずつ整い始めましたが、機械翻訳のような知的処理に関しては、まだ実用化できるほどの精度が足りていない状況だったといいます。

そして1990年頃から現在までは「発展期」と呼ばれています。この間にインターネットが世界的に普及し始めたことを踏まえると、まさに社会基盤になった時期といえるでしょう。2000年代には、「マシンパワー増大」「ビックデータ活用」「アルゴリズム改良」といったトピックもあり、再び注目され始めるきっかけとなりました。

2010年代に入ると、画像認識や音声認識といったさまざまなタスクにおいて、大幅な精度の向上が見受けられるようになりました。特に、ニューラルネットワークを活用した翻訳手法である「ニューラル機械翻訳」は、大幅に精度が向上され、機械翻訳を実用化できるほどの技術にまで発展させました。

 

●自然言語処理でできること

そんな自然言語処理でできることとしては、主に以下の4つが挙げられます。

 

・テキストデータの解析

コンピュータを利用した自然言語処理は、人間よりも遥かに多くのテキストデータを処理することが可能です。より高い精度でテキストの内容を把握できる上に、人間のように疲労を感じることもありません。つまり、高精度化と効率化の両面で大きなメリットがあるということです。

この技術は、特にテキストマイニングで大きな力を発揮します。テキストマイニングとは、テキストデータの中から重要な情報を抽出する技術のことです。SNSから抽出した情報を活用してユーザーのニーズを分析したりできるため、マーケティング分野で多く利用されています。

近年はテキストマイニングで解析すべきデータが膨大になってきており、SNSの発達や、音声をテキスト化する技術の発展などがその大きな要因となっています。それに伴い、自然言語処理を活用した高速かつ高精度なテキストマイニングの重要性が高まってきているのです。

 

・非構造化データの処理

非構造化データとは、行や列によって構造化されていないデータのことを指します。動画や画像などは、まさにこの非構造化データに該当するわけです。これらの非構造化データは構造化データとは異なり、コンピュータで解析するのが容易ではありません。

非構造化データの典型的な例として挙げられるのは、人間の言語です。形式が整っていないのはもちろんのこと、個人の癖や方言といった違いもあります。そのため、コンピュータでの分析には向いていません。

とはいえ、最近ではAIの機械学習によって、少しずつ非構造化データの処理精度も高まってきています。そのため、自然言語処理によって曖昧さを解消されたテキストが音声認識技術などに活用されることが期待されているのです。

 

■自然言語処理の仕組み

■自然言語処理は「機械可読辞書」と「コーパス」の構築によって行われる|人工知能を搭載した製品・サービスの比較一覧・導入活用事例・資料請求が無料でできるAIポータルメディア

自然言語は、プログラミング言語とは異なり曖昧性が存在するわけですが、その曖昧性を克服し、適切な形でテキストデータを活用するために用いられるのが「自然言語処理」という技術です。そんな自然言語処理を行うためには、「機械可読辞書」と「コーパス」の2つが欠かせません。

機械可読辞書とは、「コンピューターが単語の総体である語彙(ごい)を理解するために必要となる辞書」のことです。一見、私たち人間が日常的に使用している辞書と同じもののように感じられるかもしれませんが、その辞書とは異なります。

もう一方のコーパスとは、自然言語処理を行う際に必要となる「自然言語の文章を構造化して大規模に集積したもの」を指します。このコーパスの分析を行うことで、状況に適した言葉の意味、使い方を理解することができるようになるわけです。最近では、コンピューター自体の処理性能や記憶容量も高まってきている状況にあるため、より大規模なコーパスを利用して言語処理を行うことができるようになっています。

特に近年では多くのスマホユーザーがSNSによる情報発信を行っている状況にあり、日々大量の言葉を用いたやりとりが行われている状況です。そのため、こういったSNSのデータを収集していくことで、より一層大規模なコーパスを作成することができるようになるかもしれません。

 

●自然言語処理に欠かせない「形態素解析」

機械可読辞書とコーパスの用意が完了すると、次に行われるのが形態素解析という作業です。「形態素」は言語学の用語であり、意味を持つ表現要素の最小単位のことです。これだけでは意味が分からない方も多いかと思いますので、先ほどの「黒い目の大きい金魚」という言葉を用いて解説していきます。

この「黒い目の大きい金魚」というフレーズは、「黒い」「目」「の」「大きい」「金魚」という形態素で分割することができるわけです。このように分割していく作業を「形態素解析」と呼びます。

この形態素解析を行うことで意味のある情報の取得ができるようになり、それぞれの形態素に「形容詞」「名詞」「助詞」といった品詞を適切に割り当てていくことが可能になるのです。ただ、どれくらい詳細な品詞を割り当てるかどうかは形態素解析を行うツールの精度によって異なるため、一概に測ることはできません。

 

●word2vecとdoc2vec

自然言語処理を詳しく理解する上では、word2vecとdoc2vecという2つの技術も重要になります。それぞれどのような特徴を持った技術なのか、詳しくみていきましょう。

 

・word2vec

word2vecとは、テキスト処理を行うためのニューラルネットワークのことです。膨大な量のテキストデータを解析し、単語の意味をベクトル化することによって、単語の意味の類似性を見つけたり、単語同士の意味を足し引きしたりすることが可能になります。このword2veは、TensorFlowなどのソフトウェアライブラリで手軽に試すことができるのも大きな特徴のひとつです。

そんなword2veの仕組みを簡単にご紹介すると、例えば「ぶどう、パイナップル、果物、交ジュース」という単語をベクトル化し、以下のような数値になったとします。

ぶどう:8
パイナップル:6
果物:7
ジュース:3

これは、ベクトル化によって「ぶどう」に最も近いのが「果物」であり、「パイナップル」にもそれなりの類似性があることが示されているわけです。ちなみに、Word2Vecは、大きく分けて2種類の論理的構造(アーキテクチャ)が存在しています。単語周辺の文脈から、その中心となる単語を推測していくCBOW。中心となる単語から、文脈の構成に重要となる要素を推測していくSkip-gramです。

 

・doc2vec

doc2vecとは、任意の長さの文書をベクトル化する技術のことです。文章やテキストに対して、分散表現(Document Embeddings)を獲得することができる。そんなdoc2vecは、特定のタスクに依存されることがありません。そのため、以下の例をはじめとする多くの応用方法が存在します。

・スパムフィルタリング
・感情分析
・文書分類
・コンテンツベースのレコメンド

また、機械学習のモデルにおける入力には、固定長のベクトルが使用されるケースが多いため、事前にDoc2Vecで前処理を行なった上で、入力ベクトルにするケースも少なくありません。これまでにもBag-of-wordsやLDAなど、文書を固定長の小さなベクトルにするテクニックは存在していましたが、Doc2Vecを利用することで、それらのテクニックを上回る性能を発揮することが報告されているのです。

 

■自然言語処理の活用事例

自然言語処理は、どのような場所で活用されているのでしょうか。ここからは、自然言語処理の活用事例について詳しくご紹介していきます。

 

●対話型AIチャットボット

何気なくスマホやパソコンのサービスを利用している人からすれば、どのような部分に自然言語処理を用いたサービスが使われているか、あまりピンとこないかもしれません。しかし、意外と多くの場所で自然言語処理を用いたサービスは利用されています。

その代表例として挙げられるのが、「Siri」や「Googleアシスタント」といったAIアシスタントサービスです。これらはまさに、自然言語処理を用いたサービスのひとつといえます。私たちの発する言葉を認識し、その言葉に対する適切な答えを提示するという仕組みは、まさに自然言語処理を用いたものなのです。

また、チャットボット(対話システム)も自然言語処理を用いたサービスのひとつです。自分が打ち込んだ文章の文脈や意味合いを的確に理解し、最適な回答を文章化するというチャットボットも、自然言語処理が用いられています。特に日本語の場合は、主語が抜けただけで大きく意味合いが変わってしまうことも少なくありません。そのため、チャットボットでは直前の会話に出てきた「主語」を記録した上で、その後のコミュニケーションに生かしていくことなども可能になっているのです。

 

・AIチャットボットの導入事例(パナソニック株式会社 グローバル調達社)

自然言語処理を用いたAIチャットボットの代表的な導入事例としては、パナソニック株式会社 グローバル調達社が挙げられます。パナソニック株式会社 グローバル調達社では、下請法や接待に関する社内ヘルプデスク業務をAIチャットボット FAQ で自動化し、効率化につなげることに成功しました。2018年4月に「WisTalk(ウィズトーク)」をもとに構築した「守くん」をリリースし、ヘルプデスク業務の効率化を図っています。

社内ヘルプデスク業務の多くは、コンプライアンスに大きく関わってくる内容であるため、回答に正確性が求められるのはもちろんのこと、ユーザーが回答を読んですぐ理解できるという点を重視する必要があったといいます。そのため、簡単で親しみやすい文章にすることに留意したそうです。

現在は1日10件以上、月換算だと200件以上の質問が「守くん」に寄せられているといいます。また、質問者からの評価や利用の多い項目の検証などを行うことで、ユーザーが気軽に使え、かつ疑問がすぐに解消できるツールとしての浸透を図っているそうです。導入初年度は5回、2年目となる2019年度には2回のアップデートを行うことで、「守くん」で解決できる質問の幅を広げています。

 

チャットボット「WisTalk」の詳細を見る

 

●音声認識AI

多くの音声認識AIは、自然言語処理と組み合わせて運用されています。音声認識の領域は、「録音したデータから人間の声だけを抽出し、文脈の通ったテキストに起こす」という部分までです。したがって、「こんにちは」という挨拶に対しては「こんにちは」と返す、というような命令に対して操作を行う技術は、テキストを「意味のある文言」として認識・処理する自然言語処理の領域といえるのです。

 

・音声認識AIの導入事例

そんな音声認識AIの導入事例としては、「WOVN.io」を導入している株式会社東京ドームが挙げられます。東京ドーム、LaQua(ラクーア)、東京ドームシティ アトラクションズ、MEETS PORT(ミーツポート)、黄色いビル、東京ドームホテルなどを運営する株式会社東京ドームでは、多言語サイトはあったものの、更新するたびにコーディングの作業が必要となり、手間と時間がかっていたそうです。それが原因となり、インバウンド向けに発信したい情報もタイムリーに提供できていなかったといいます。

そこで、WOVN.ioを導入し、元となる日本語サイトの構築のみで多言語サイトの構築を実施したことで、圧倒的手間の削減を実現しました。更新にかかる手間も削減できたため、月に1,000以上のコンテンツを更新するなど、各段に更新頻度がアップしたといいます。また、多言語サイト構築後は、海外からのアクセス数が2倍以上に増加したそうです。

 

音声認識AI「WOVN.io」の詳細を見る

 

・音声認識AIの導入事例2

BPOのプロフェッショナルとして、事務処理、ITヘルプデスク、コールセンターをはじめ、健康支援等のヘルスケア事業を行っているパーソルワークスデザイン株式会社では、音声認識AIの「AmiVoice Communication Suite」を導入することで、評価作業の効率化と品質向上を実現しています。

パーソルワークスデザインでは、ビジネス拡大に伴いコールセンター業務に従事するスタッフが増加する一方で、モニタリング評価者側のリソースを増やすことができず、スタッフ数百人の応対音源を一本一本人が耳で聞くといった労力のかかるモニタリングを行っていたそうです。スタッフの人数も十分ではないため、一人あたりのモニタリング対象音源の件数に制約があったり、評価者間のカリブレーションにも多くの時間を要したりと、リソース面の課題が顕著だったといいます。

そこでAmiVoice MediaScriber Cloudを導入したところ、これまでモニタリング評価者が一本ずつ耳で聞いていたモニタリングを自動評価できるようになり、モニタリング工数が大幅に削減されたそうです。人が評価を行う場合、1本のモニタリングに少なくても30分は要しますが、AmiVoice MediaScriber Cloudの活用によって瞬時に行えるようになったといいます。

人手不足が深刻化する現代において、このような形で業務効率化を図れるのは大きなメリットといえるでしょう。

 

音声認識AI「AmiVoice」の詳細を見る

 

●AI-OCR(文字認識)

AI-OCR(文字認識)も、自然言語処理が活用されている領域のひとつです。当然ではありますが、パソコンで文字列を入力しても、コンピュータ自体がその意味を理解しているわけではありません。コンピュータが理解できるデータに自動的に変換したうえで、処理が行われているわけです。

ただ、キーボードで入力したデータはコンピュータが理解できるデータに変換されるものの、手書き書類や印字された書類は、読み込んでもコンピュータは文字と認識することができません。そのため、自然言語処理の応用技術として、手書き文字認識の研究が行われるようになったのです。

手書き文字認識は、AIの活用によって文字ごとに異なる特徴を自動抽出したり、学習したりすることを可能にしました。これまでの文字認識は、特徴の抽出を人間が手作業で行い、それモデルに学習させなければなりませんでした。そのため、膨大な数の特徴が存在する手書き文字を正確に認識することには限界があったのです。

その点、AIを活用すれば、AI自身が「文字の特徴抽出」や「モデルの学習」を行えるようになるため、従来のOCR技術では困難だった手書き文字の認識も可能となったわけです。

 

・自然言語処理を活用したAI-OCR(文字認識)サービス

最近では自然言語処理を活用したAI-OCR(文字認識)サービスが多く販売されていますが、代表的なものとしては株式会社アイメソフト・ジャパンが提供するAimeCardが挙げられるでしょう。AimeCardは、高い文字認識精度を誇るAI-OCRであり、人手によるデータ化や目視チェックをしていた煩雑な業務をすべて自動化し業務効率化、改善を図ります。

大きな特徴としては、日本語、英語、ベトナム語の活字において、文字レベルの精度99%以上を達成している点が挙げられるでしょう。認識できなかった手書き文字などは、学習を繰り返すことで精度を向上させられる点も大きな魅力のひとつです。

その他にも、高頻度で出現する単語を優先させる辞書追加や、画像品質改善やノイズ削除などの前処理、台形補正や回転、斜め校正など、正面を向いた画像でなくても前処理をすることにより高精度な認識結果を出すことができます。

 

AI-OCR「AimeCard」の詳細を見る

 

●AI検索システム

自然言語処理は、AI検索システムにも活用されています。多くの企業は、蓄積されたデータを厳重に管理し、資産として大事に活用していくわけですが、その蓄積されたデータを有効に活用できないまま眠らせてしまっているケースも少なくありません。そのようなときに、必要な情報を素早く見つけ出すことができるのが、AIを活用した検索システムなのです。

AI技術(自然言語処理、機械学習など)を活用することで、自然文で入力された文章がドキュメントとは完全に一致していなくても、目的のドキュメントを検索することができるようになります。そのため、「あいまいなイメージ」だけしか持てていない場合でも、目的のデータを探し当てられる可能性が高まるというわけです。

 

・AI検索システムの導入事例

Click Navi|検索システム|AI・人工知能製品・サービスの比較一覧・導入活用事例・資料請求が無料でできるAIポータルメディア

そんなAI検索システムの導入事例としては、「Click Navi」を活用している住友電工情報システム株式会社が挙げられるでしょう。Click Naviは、『AIで「探し方」改革! クリックだけで情報探し!』をコンセプトに、文字入力不要でクリックだけで目的の文書にたどり着ける新しい「探し方」を提案するシステムです。

利用経験がない方でも迷うことなく直感的に操作ができるユーザインターフェースが実現されています。基本操作はクリックだけなので、パソコン操作が不慣れな方や、外出先のスマートデバイスでも簡単に利用できるのが特徴です。

また、頻繁に利用する検索条件をカテゴリとして設定(AIで候補を自動提示)しておくことで、文字入力せずに、カテゴリをクリックするだけで文書を探すことができます。検索の起点は、「カテゴリ」だけでなく「検索対象の種類」「更新日」などに切り替えることも可能です。

さらに、検索結果を効果的に絞り込むための「絞込キーワード」をAIにより自動抽出します。クリックするごとに新たな「絞込キーワード」が抽出されるので、検索キーワードが思いつかない場合でも、目的の文書にたどり着けます。

ベテランの探し方をClick Naviに設定して共有できるため、住友電工情報システム株式会社では、若手へのノウハウ・技術伝承に「Click Navi」を活用しています。

 

AI検索システム「Click Navi」の詳細を見る

 

・AI検索システムの導入事例2

Knowledge Explorer|検索システム|AI・人工知能製品・サービスの比較一覧・導入活用事例・資料請求が無料でできるAIポータルメディア

スーパーマーケットなどの流通小売業界をはじめ、生鮮加工センター、食品製造工場、物流センター、サービス・飲食店舗に向けた、電子機器、システム、サービスを提供する株式会社寺岡精工では、検索システムの「Knowledge Explorer」が導入されています。

株式会社寺岡精工は、日本初の「寺岡式敏感自動バネ秤」製造から始まり、世界初の電子料金秤、サーマル印字方式バーコードプリンタ、自動計量包装値付機、セミセルフレジ、次世代型のスマホレジ(Shop&Go)など、「新しい常識の創造」を続ける、業界のリーディング・カンパニーでもあります。

そんな同社では、開発者の技術・ノウハウが社内のデータベースに文書化して蓄えられているにも関わらず、「気付かない」、「探せない」ことが理由で、共有や活用が進まない課題を抱えていました。

そこで、Knowledge Explorerを導入したところ、既存の文書管理システム(IBM Notes/Domino)や運用を変えることなく、効率よく目的の文書が検索できるようになり、蓄えられた文書が共有・活用されるようになったといいます。

 

●ビッグデータ活用

ビッグデータ活用という領域においても、自然言語処理は活用されています。収集された膨大な量のデータは、より分析を行いやすくするためにも、適切な行列形式に揃えなくてはなりません。そのため、キーワード抽出やカテゴリ分類、感情分析といった高度な分類作業を実現できる自然言語処理は、ビッグデータ活用という領域においても重要な役割を果たしているのです。

 

・ビッグデータ活用の導入事例

ビッグデータ活用サービスはさまざまな企業で導入されていますが、ひとつの事例として、BigData Proccessing AI System「SOFIT Super REALISM」を活用している製造会社が挙げられます。この企業では、工場の IoT 化の一環として、製造ラインの見える化に取り組んでいます。

センサや設備など異なるデバイスから収集したデータは、形式や定義が不ぞろいなため統合できず、また、製造ラインのトレーサビリティの処理に1日以上かかることも分かり、ビッグデータの処理速度にも課題があったといいます。また、経営層からは、ラインだけでなく工場全体や海外拠点との連携を見据えた見える化を求められていたそうです。

そこで「SOFIT Super REALISM」を導入したところ、これまで以上にデータの確認や整備が簡単に行えるようになり、効率良く統合できるようになったといいます。また、処理を「SOFIT Super REALISM」に置き換えることで、特定時間が90%以上短縮され、報告も即日行えるようになったそうです。

 

データ活用AI「SOFIT Super REALISM」の詳細を見る

 

・ビッグデータ活用の導入事例2

あるアパレル企業では、数年で急速な成長を見せたことから多数の店舗を出店し、そのたびに場当たり的にシステムに投資していました。そのため、店舗と通販が異なるシステムとなってしまっていたそうです。また、データ量もExcelでは開けないほど膨大になったため、データの分析をベンダーに依頼しなければならなかったといいます。当然、このような状態では、立地ごとに異なる客層に向けた店舗づくりのための購買データの分析はできません。

そういった課題を解決すべく、BigData Proccessing AI System「SOFIT Super REALISM」を導入したところ、店舗ごとの購買履歴を集計・分析できるようになり、店長が客観的なデータに基づく販売戦略の立案や、施策評価を行えるようになったといいます。また、担当者がデータ加工・処理をスピーディーに行えるようになり、アイテム別の売り上げ構成分析やブランド戦略立案も可能になったそうです。

 

■自然言語処理-NLP-のAIサービス一覧・比較まとめ

今回は、自然言語処理の仕組みや歴史、そして活用事例などについて詳しくご紹介しました。自然言語処理は、音声認識や文字認識、検索システム、そしてビッグデータ活用など、さまざまな領域で活用されている技術であることがお分かりいただけたのではないでしょうか。高い精度での分析を行う上で、非常に重要な役割を果たしているのです。

そんな自然言語処理を活用したAIサービスは、ここ最近多くなってきているため、どのような点に着目して選べば良いのか分からずに悩んでしまう方もいらっしゃるでしょう。自然言語処理AIサービスは、一つひとつ特徴が異なりますので、自社の課題をしっかりと把握した上で、最適なサービスを選択することが大切になります。

以下のページでは、チャットボットをはじめとするAIソリューションを検討する際に便利な比較表をご紹介しています。「導入にかかるコスト・料金を比較・調査したい」という場合には、ぜひご活用ください。

 

自然言語処理のサービス比較と企業一覧を見る

 

このAI記事が気に入ったら
いいね ! しよう

Twitter でAIポータルメディアAIsmileyを
この記事で紹介されたAIサービスを無料で資料請求