近年は、さまざまな業界でAI・人工知能が導入され始めており、私たちにとって身近な存在となりつつあります。しかし、多くの人がAIに関する知識を多く備えているかといえば、決してそうではないでしょう。むしろ、「AIについては何となく理解しているけど、その詳細や専門用語などはよく知らない」という方のほうが多いのではないでしょうか。
より正しくAIを活用していくためには、最低限の知識が必要不可欠です。そこで今回は、AIの領域において特に耳にする機会が多い「アノテーション」について詳しくご紹介していきます。
■そもそもアノテーションって何?
中には、アノテーションという言葉自体を初めて聞いたという方もいるかと思いますので、まずはアノテーションがという言葉が何を意味するのかを学んでいきましょう。
そもそもアノテーション(annotation)とは、「注釈」という意味の英語です。要するに「注意を与える」という意味を持つ言葉なのですが、ビジネスシーンにおいては「テキストや音声、画像といったさまざまな形態のデータに、タグやメタデータを付ける作業」のことを指します。
AIの機械学習には「教師あり学習」「教師なし学習」という2つの学習方法が存在します。教師あり学習は、データの分類を行ったりデータをもとに予測したりする場合に用いる方法です。一方の教師なし学習は、類似しているもの同士でグループ分けを行う場合に用いる方法です。
こういった目的に沿うルールをAIに学習させるには、正確に学習させるための大量のデータが必要になります。そのため、AIの開発においてはデータへの正確なタグ付けが極めて重要になるわけです。そのプロセスを「アノテーション」と呼び、タグ付けされたデータのことを教師データといいます。
■アノテーションにはさまざまな種類がある
そんなアノテーションですが、その種類はひとつではありません。さまざまなアノテーションの種類が存在しますので、代表的なものをいくつか詳しくみていきましょう。
・意味的(セマンティック)アノテーション
意味的(セマンティック)アノテーションとは、「人名」「商品名」「企業名」といったテキスト内の単語に意味付けを行うタグ付けのことを指します。機械学習のアルゴリズムが正しくデータを読み込めるようにすることが主な目的です。この意味的アノテーションの主な活用例としては、チャットボットにおける学習、検索エンジンにおける関連性の改善などが挙げられるでしょう。
・画像(映像)アノテーション
画像(映像)アノテーションは、電子商取引における商品リスト分類などに活用されているものです。機械学習による画像認識(映像処理)は、機密情報の漏洩防止、自動車の自動運転などにも活用されています。
これらは、画像(映像)の内容を正しく理解しなければ機能しません。そのため、正確にタグ付けされた大量のデータを活用し、その現場測定データを用いて機械学習のアルゴリズムに画像認識(映像処理)の学習を行わせるのです。
・テキスト、コンテンツ分類
テキストやコンテンツの分類作業も「アノテーション」の一部といえるでしょう。あらかじめ定義付けされたカテゴリを、フリーテキストで書かれた文書に割り当てていくというものです。これにより、文章をトピックごとにタグ付けしていくことができるようになります。
代表例としては、ニュースサイトなどにおいて「国内」「スポーツ」「エンタメ」「経済」といったように、カテゴリごとにニュースを分類することなどが挙げられるでしょう。これはまさに、アノテーションによって実現できているものなのです。
・意味(インテント)抽出
チャットボットにおいては、ユーザーからの質問を正しい意味で理解し、適切な回答を示していくことが大切になります。例えば、飲食店のホームページに設置されたチャットボットに対して、以下のような問い合わせが寄せられた場合について考えてみましょう。
・キャンセル料はいくらでしょうか?
・無断でキャンセルした場合には、キャンセル料を取られますか?
・キャンセル料を支払い、予約をキャンセルします。
上記3つの文章にはすべて「キャンセル料」という言葉が含まれています。しかし、これら3つの問い合わせ内容はすべて異なっていることがお分かりいただけるでしょう。
1つ目、2つ目の文章は「キャンセル料に関する問い合わせ」ですが、3つ目の文章に関しては「キャンセルしたいという意思表示」であることが分かります。
そのため、単に「キャンセル料」という言葉を理解できても意味はなく、こういった文章の違いを的確に判断できるようにならなければなりません。意図(インテント)抽出は、まさにこういった問題に対処するための技術的なソリューションなのです。
語句や文のレベルでユーザーの意図を正しくタグ付けしていくため、特定の要求を行う際に使われる表現のライブラリが日々構築されていきます。この積み重ねによって、さまざまな文章の意図を的確に読み取ることができるようになるというわけです。
・エンティティアノテーション
エンティティアノテーションの「エンティティ」とは、データ構築における対象物となる「人」「物」「場所」「サービス」「概念」などを一つのカテゴリにまとめたもののことです。そのため、エンティティアノテーションは、これらのエンティティをもとにしてAIが文章を認識できるよう、非構造化文章に情報のタグ付けを行う作業を指します。
一般的に、学習データを作成するためには、多くの人の手でタグ付けを行わなくてはなりません。中には、数万人以上のクラウドワーカーを募集して、タグ付けの作業を行っている企業も存在するのです。対象となる記事の中で、「人の名前はどれなのか」「商品の名前はどれなのか」「組織の名前はどれなのか」といった情報を明確にさせるためにも、単語一つひとつにタグ付けする作業は欠かせません。
なお、エンティティアノテーションはさまざまな種類が存在しています。大半のソリューションでは、多くの種類がシステムに組み込まれているため、用途に応じてデータサイエンティストが操作することが可能です。
■企業が自社でアノテーションできるツールの普及も進む
先ほどもご紹介しましたが、アノテーションの手法のひとつに「画像分類」があります。これは、用途によって手法も少しずつ異なるものなのですが、ディープラーニングの場合には、高精度のAIモデルを作成するために「1万〜10万件の画像データ」を用意しなければなりません。これほどの量の画像データを用意するのは決して簡単なことではなく、むしろ画像データの収集段階で挫折してしまうケースも多いのです。
そのため、最近では企業が自社でアノテーションを行えるツールや、アノテーションを丸ごと委託できるサービスなども多くなってきています。たとえば、タクシー会社の各タクシーに搭載されたドライブレコーダーから「道路のひび割れ」に関するデータを収集し、ある一定以上のひび割れを検知するモデルを構築できれば、道路点検の業務を大幅に効率化することができるのです。
このように、これまで別の用途で用いられていたデータであっても、新しく抽出したい情報の要件定義に沿ったアノテーションによって、また別の可能性を見出すことができるようになります。
このような形で新たな事業を考案している企業もあり、データ活用も多様化され始めています。一見、活用の余地がないように思えるデータも、少し考え方を変えるだけで新たな可能性が生まれる可能性も十分にあるのです。それも、アノテーションの魅力のひとつといえるでしょう。
■AI活用においてはアノテーションの精度を高めていくことが大きな鍵を握る
アノテーションは、精度の高いAIを開発する上で必要不可欠な作業であることがお分かりいただけたのではないでしょうか。AIは大量の学習データをもとに分析や予測を行うことは得意としているものの、その学習データがなければ一歩を踏み出すことはできません。そのため、最近では機械学習に欠かせない「データ作り」を一括で請け負うサービスを提供する企業も増えてきています。
場合によっては、初めの学習データが正確なものではなく、そのままAIの精度を高められなくなってしまうというケースも考えられます。そのようなトラブルを避けるためにも、よりアノテーションの精度を高めていくことが求められるでしょう。
AIの技術は日々進歩していますが、より有効にAIを活用できるかどうかは「いかに大量かつ高品質な学習データを用意できるか」という点にかかっているといえます。その事実をしっかりと受け入れた上で、AIの活用を検討していくべきでしょう。