機械学習・AIを活用したテキスト分類とは？手法や精度向上のポイントを解説

最終更新日:2024/02/21

AI・人工知能の技術が発展したことにより、その技術に注目する企業も多くなりつつあります。そのため、ビッグデータ活用やAIを利用したサービスに触れたことがある方も多いのではないでしょうか。

そんなAIの活用は、テキストを扱う分野においても進んでおり、たとえばWeb広告やメールなどにおける不正検知、ニュースのカテゴライズなど、テキスト分類によってさらなるサービス品質向上を実現することができているのです。

では、一体どのような仕組みでテキスト分類が成り立っているのでしょうか。今回は、テキスト分類の手法や進め方などについて詳しく解説していきますので、ぜひ参考にしてみてください。

自然言語処理について詳しく知りたい方は以下の記事もご覧ください。
自然言語処理とは？できること、種類、活用事例を解説！

テキスト分類とは？

テキスト分類とは、その文章がどんな内容について書かれているものなのかを調べ、トピックごとに分類していく作業のことを指します。これまでは、人間が実際に目を通すことで実現されてきた作業ですが、近年はこの作業をAIによって自動化、高精度化させることが可能になってきているのです。

テキスト分類を実現することができるのは、「自然言語処理」という技術が存在しているからに他なりません。自然言語処理は、その名の通り「自然言語を処理する技術」を指しているわけですが、そもそも「自然言語」というものが何なのか、いまいち分からないという方も多いのではないでしょうか。この「自然言語」とは、私たちが日常的な会話で使用している言語のことだと捉えていただければ問題ありません。

ちなみに、自然言語と相反する言語としては「コンピューター言語」というものがあり、「1+2+5」といったような一通りの解釈しか存在しないようなものは、コンピューター言語に該当します。

一方の自然言語には、複数の解釈ができるケースも少なくありません。たとえば、「A君は自転車で帰宅中のB君を追いかけた」という文章があったとします。この場合、「A君は自転車に乗り、帰宅中のB君を追いかけた」という解釈をすることもできれば、「A君は、自転車に乗って帰宅しているB君を追いかけた」という解釈をすることもできるわけです。

このように自然言語は複数の解釈ができることから、これまでは適切な形で処理を行うことが難しいとされてきました。しかし、近年はAI（人工知能）の技術が発展したことにより、非常に高い精度で自然言語処理を行えるようになってきているのです。

ネガポジ判定

テキスト分類では、テキストから感情を分析することもできます。これは、自然言語処理による「ネガポジ判定」によって実現されているものです。ネガポジ判定とは、自然言語処理の分野における感情分析技術のひとつであり、対象とする文章が「前向き（ポジティブ）」な意味合いなのか「後ろ向き（ネガティブ）」な意味合いなのかを判定する技術となります。

ポジティブ度もしくはネガティブ度が付与された単語辞書をもとに、判定が行われるという仕組みです。たとえば、「あきれる」「あやしい」「あせる」といった単語はネガティブ用語として登録されており、「あこがれる」「ベタ惚れ」といった単語はポジティブ用語として登録されています。

もちろん、ポジティブにもネガティブにも当てはまらない言葉は多数存在するため、ネガティブ（e）・ニュートラル(n)・ポジティブ(p)といった評価極性情報を付与することによって、より確実に文章のネガポジ判定が可能になるわけです。

業務・用途に合わせた分類

テキスト分類は、特定のキーワードをもとにカテゴライズしていくことが可能なため、最近ではさまざまな業務でも活用され始めています。

たとえば、ホテルの予約フォームの備考欄に「追加ベッド関係」のテキストが含まれていれば、その旨を客室係のスタッフに通知させる仕組みを構築することができるわけです。これにより、客室係はスムーズに必要な情報をキャッチできるようになり、さらなる業務効率化を図れるようになります。

また、予約フォームの備考欄に「アレルギー関係の記載」があれば、その情報がレストランに自動共有されるように仕組みを構築することも可能です。これらは、機械学習・AIを活用したテキスト分類という技術があるからこそ実現できるものといえるでしょう。

テキスト分類の手法

では、テキスト分類は実際にどのような手法によって成り立っているのでしょうか。ここからは、テキスト分類の手法について詳しくみていきましょう。

機械学習

代表的なテキスト分類の手法の一つとして挙げられるのが、機械学習によるテキスト分類です。膨大なデータを効率的に分類していくことが可能になります。そんな機械学習には、大きく分けて「テキストのベクトル化」「分類」という2つのフェーズが存在し、それぞれにさまざまな方法が存在しています。

「テキストのベクトル化」であれば、文書内の単語の出現頻度をもとに算出していくカウントベースの手法、単語・文などの分散表現を算出していくモデルを使用する推論ベースといった手法が存在しています。

分類のフェーズにおいては、決められたトピックに分類するための学習モデルを作成していく「教師あり学習」、特異値分解・確率モデルなど用いることで指定したトピック数の群に分けていく「教師なし学習」、などが使用されています。

教師あり学習

教師あり学習（Supervised Learning）とは、その名の通り、教師となるデータをもとに学習していくものであり、不明なデータを持ち寄った場合には正解を教えてくれるというイメージで問題ありません。そのため、正解となるデータを大量に学習していくことで、新しいデータにも対応することができるようになるのです。

そんな教師あり学習は、「学習」「認識・予測」という2つのプロセスによって成り立っています。1つ目のプロセスである「学習」では、正解のデータを用いてルールやパターンの学習を行っていくわけです。そして2つ目のプロセスである「認識・予測」では、新しくインプットされた「まだ正解がわからないデータ」に対して、これまでに学習したデータを用いて認識・予測を行っていきます。

教師なし学習

教師なし学習（Unsupervised Learning）は、正解となるデータが存在せず、入力されたデータを利用して正解を導き出していきます。教師あり学習の場合、教師となるデータをもとに学習していく必要がありますが、教師なし学習は教師データが必要ありません。

一見、教師なし学習のほうが難しいように思えるかもしれませんが、適切な方法で学習を行えば、教師なし学習でも精度を高めていくことが可能です。教師なし学習は、膨大なデータの学習を行うわけではなく、データそのものが持っている構造や特徴の分析を行っていくため、グループ分けやデータ簡略化といった作業がメインになります。

ディープラーニング

ディープラーニングを用いたテキスト分類も存在します。比較的簡単でありながら、高い精度を実現できるのが特徴です。ディープラーニングによるテキスト分類にもさまざまな手法が存在しますが、その一例としてはBag of wordsとニューラルネットワークを組み合わせた手法が挙げられるでしょう。

Bag of wordsとは、その言葉からもわかるように「文章を単語単位に区切ってバッグに詰め込んでしまうこと」を指します。文章をバラバラにしてしまうため、単語の順番が考慮されません。ただ、自然言語処理においてはこの手法が多く用いられているのです。

というのも、単語の順番という情報を捨てても、多くの場面において精度を出すことが可能だからです。英語の文章の場合、単語ごとに簡単に区切ることができますが、日本語はそのように簡単に区切ることはできません。そのため、形態素解析という技術が用いられます。

テキスト分類の進め方

ここからは、実際にテキスト分類を行う場合の進め方について、詳しくみていきましょう。一般的に、テキスト分類は「形態素解析」「分類」という2つのステップに分けられます。

形態素解析（ベクトル化）

形態素解析は、自然言語処理（NLP）の一部です。自然言語で書かれている文を、言語において意味を持つ最小の単位(形態素)に細分化し、一つひとつの品詞・変化などを判別していく作業のことを指します。「形態素」は言語学の用語であり、意味を持つ表現要素の最小単位のことなのです。

これだけでは意味が分からない方も多いかと思いますので、先ほどの「黒い目の大きい金魚」という言葉を用いて解説していきます。この「黒い目の大きい金魚」というフレーズは、「黒い」「目」「の」「大きい」「金魚」という形態素で分割することができるわけです。このように分割していく作業を「形態素解析」と呼びます。

この形態素解析を行うことで意味のある情報の取得ができるようになり、それぞれの形態素に「形容詞」「名詞」「助詞」といった品詞を適切に割り当てていくことが可能になるのです。ただ、どれくらい詳細な品詞を割り当てるかどうかは形態素解析を行うツールの精度によって異なるため、一概に測ることはできません。

分類

形態素解析によって単語を区切る技術を構築したら、実際にテキスト分類を実装していきます。簡単なコードでメソッドを実装した場合でも、たとえばその文章が「天気」または「ナビゲーション」のどちらのカテゴリーに属しているのか、分別することが可能になります。そこに機械学習を組み合わせることによって、さらに高い精度でのカテゴリー分類を行うことも可能になるわけです。当然、機械学習やディープラーニングを用いたテキスト分類を実装するためには手間がかかりますし、実装の難易度も高まりますが、より高い精度での分類を求めている人にとっては機械学習、ディープラーニングは欠かせない存在といえるでしょう。

アノテーションでデータセット構築

テキスト分類の精度を高めるためには、テキスト分類アノテーションを活用して高品質な教師データを作成し、精度を高めていくことも欠かせない作業の一つといえるでしょう。

アノテーションとは、テキスト（文章）や音声、動画といったさまざまな形態のデータに、「タグ」を付けていく作業のことです。AIの機械学習アルゴリズムは、タグが付けられているデータを取り込むことによって、初めてパターン認識が可能になります。そのため、AIを開発する上では、タグが付けられている状態のデータを大量に用意した上で、機械学習アルゴリズムを学習させていかなければならないのです。

タグ付けが正確に行われていないデータを用意しても、AIは正しく学習することができませんから、AI開発において「タグ付け」の作業を行うアノテーションは、絶対に欠かせないものといえます。