AIsmiley Magazine

AIsmiley編集部によるAI・人工知能サービスの導入事例や活用事例などの情報を記事にしてお届けします

AI・人工知能サービス

最終更新日:2019/12/2

自然言語処理とは?具体例と自然言語処理(形態素解析)ツールを解説

  • 業種・業態
  • 編集部記事

自然言語処理とは?具体例と自然言語処理(形態素解析)ツールを解説|人工知能を搭載した製品・サービスの比較一覧・導入活用事例・資料請求が無料でできるAIポータルメディア

医療や交通、防犯、農業など、近年はさまざまな業界でAI・人工知能が活用されるようになりました。それは私たちが日常的に使用する「言語」においてもいえることであり、機械翻訳や、かな漢字変換といった「自然言語処理」にも活用されているのです。

この「自然言語処理」とは一体どのようなものなのでしょうか。今回は、自然言語処理について詳しくご紹介していくとともに、自然言語処理を行うツールの解説や、自然言語処理を行う過程で使用される形態素解析の解説などを行っていきます。

■「自然言語」とは?

■「自然言語」とは?|人工知能を搭載した製品・サービスの比較一覧・導入活用事例・資料請求が無料でできるAIポータルメディア

「そもそも自然言語って何?」と思われる方も決して少なくないでしょう。自然言語とは、私たち人間が日常的に話したり書いたりしている日本語や英語、フランス語といった「自然な言語」のことを指します。この自然言語の対照的な存在が、プログラミング言語です。

プログラミング言語には一切の曖昧性がありませんが、自然言語には曖昧性があるため、その言葉(文字)の意味を正しく理解することは決して簡単なことではありませんでした。

例えば、「黒い目の大きい金魚」という言葉があったとします。この場合、「“目が黒い”“大きな金魚”」というニュアンスにもなりますし、「“黒い色”の“目が大きな金魚”」というニュアンスにもなるわけです。そのため、本来伝えたい意味とは異なって伝わってしまうというケースも少なくありません。

その点、プログラミング言語の場合は、「5+3+1=9」のように、答えがひとつしか存在しません。コンピューターの制御を行うためのプログラムを記述する言語なので、すべてのコンピューターが同じ解釈をすることができるわけです。だからこそ、プログラミングにおいて「コンピューターごとに異なる動きをしてしまう」という事態が引き起こることはありません。
 

■自然言語処理は「機械可読辞書」と「コーパス」の構築によって行われる

■自然言語処理は「機械可読辞書」と「コーパス」の構築によって行われる|人工知能を搭載した製品・サービスの比較一覧・導入活用事例・資料請求が無料でできるAIポータルメディア

このように、自然言語はプログラミング言語とは違って曖昧性が存在するわけですが、その曖昧性を克服し、適切な形でテキストデータを活用するために用いられるのが「自然言語処理」という技術です。そんな自然言語処理を行うためには、「機械可読辞書」と「コーパス」の2つが欠かせません。

機械可読辞書とは、「コンピューターが単語の総体である語彙(ごい)を理解するために必要となる辞書」のことです。一見、私たち人間が日常的に使用している辞書と同じもののように感じられるかもしれませんが、その辞書とは異なります。

もう一方のコーパスとは、自然言語処理を行う際に必要となる「自然言語の文章を構造化して大規模に集積したもの」を指します。このコーパスの分析を行うことで、状況に適した言葉の意味、使い方を理解することができるようになるわけです。最近では、コンピューター自体の処理性能や記憶容量も高まってきている状況にあるため、より大規模なコーパスを利用して言語処理を行うことができるようになっています。

特に近年では多くのスマホユーザーがSNSによる情報発信を行っている状況にあり、日々大量の言葉を用いたやりとりが行われている状況です。そのため、こういったSNSのデータを収集していくことで、より一層大規模なコーパスを作成することができるようになるかもしれません。
 

■自然言語処理に欠かせない「形態素解析」とは。

■自然言語処理に欠かせない「形態素解析」とは。|人工知能を搭載した製品・サービスの比較一覧・導入活用事例・資料請求が無料でできるAIポータルメディア

機械可読辞書とコーパスの用意が完了すると、次に行われるのが形態素解析という作業です。「形態素」は言語学の用語であり、意味を持つ表現要素の最小単位のことです。これだけでは意味が分からない方も多いかと思いますので、先ほどの「黒い目の大きい金魚」という言葉を用いて解説していきます。

この「黒い目の大きい金魚」というフレーズは、「黒い」「目」「の」「大きい」「金魚」という形態素で分割することができるわけです。このように分割していく作業を「形態素解析」と呼びます。

この形態素解析を行うことで意味のある情報の取得ができるようになり、それぞれの形態素に「形容詞」「名詞」「助詞」といった品詞を適切に割り当てていくことが可能になるのです。ただ、どれくらい詳細な品詞を割り当てるかどうかは形態素解析を行うツールの精度によって異なるため、一概に測ることはできません。

では、具体的にどのような形態素解析のツールが存在するのでしょうか。ここからは、代表的な形態素解析のツールをいくつか見ていきましょう。
 

■代表的な自然言語処理(形態素解析)ツール

・自然言語処理(形態素解析)ツール1:Yahoo!JAPANテキスト解析 Web API

24時間で5万件までの形態素解析を行うことができるツール(API)です。1リクエストの最大サイズは10KBまでとなっています。その他のテキスト解析機能として、「かな漢字変換」「ルビ振り」「校正支援」「日本語係り受け解析」「キーフレーズ抽出」といったものが備わっているのが特徴です。

(参照:Yahoo!デベロッパーネットワーク テキスト解析:日本語形態素解析)

 

・自然言語処理(形態素解析)ツール2:gooラボ

HTTPSリクエストでアクセスし、JSONでリクエストパラメータが返される仕組みの形態素解析ツール(API)です。使用条件としてGitHubでのアカウント取得を行う必要があり、クレジット画像の表示も必要です。その他のテキスト解析機能としては「固有表現抽出」「語句類似度算出」「ひらがな化」「商品評判要約」「キーワード抽出」「時刻情報正規化」といったものがあります。

(参照:gooラボ 形態素解析API)

 

・自然言語処理(形態素解析)ツール3:MeCab

形態素解析エンジンとしてもっとも頻繁に使用されています。そのため情報が豊富であるという点が大きな特徴です。IPAdic、NAIST jdic、UniDicなどさまざまな辞書との連結も可能であり、追加学習も行えます。また、高速で言語も多いため、MeCabから形態素解析を始めるという方も少なくありません。

(参照:MeCab MeCab: Yet Another Part-of-Speech and Morphological Analyzer)

 

■自然言語処理の精度向上がサービスの向上にもつながる

自然言語は、プログラミング言語とは異なり曖昧性がある言語ですが、機械可読辞書やコーパス、そして形態素解析によって適切に意味を理解することも可能であることがお分かりいただけたのではないでしょうか。

意味解析の精度が高まり、自然言語処理の性能が向上すれば、これらを活用したサービスの品質もさらに向上していくことが予想できます。

音声アシスタントやスマートスピーカーなど、自然言語処理が用いられるケースは多くなりつつありますので、今後はさらに注目を集める存在となっていくかもしれません。

(参照:Cogent Labs 形態素解析に代表される自然言語処理の仕組みやツールまとめ)

 

自然言語処理のサービス比較と企業一覧を見る

 

この記事で紹介されたAIサービスを無料で資料請求