AIsmiley Magazine

AIsmiley編集部によるAI・人工知能サービスの導入事例や活用事例などの情報を記事にしてお届けします

AI・人工知能サービス

2019/11/28

AI・人工知能の領域で耳にする機会が多い「アノテーション」とは?

  • 業種・業態
  • 編集部記事

AI(人工知能)の領域で耳にする機会が多い「アノテーション」とは?|人工知能を搭載した製品・サービスの比較一覧・導入活用事例・資料請求が無料でできるAIポータルメディア

近年は、さまざまな業界でAI・人工知能が導入され始めており、私たちにとって身近な存在となりつつあります。しかし、多くの人がAIに関する知識を多く備えているかといえば、決してそうではないでしょう。むしろ、「AIについては何となく理解しているけど、その詳細や専門用語などはよく知らない」という方のほうが多いのではないでしょうか。

より正しくAIを活用していくためには、最低限の知識が必要不可欠です。そこで今回は、AIの領域において特に耳にする機会が多い「アノテーション」について詳しくご紹介していきます。

■そもそもアノテーションって何?

■そもそもアノテーションって何?|人工知能を搭載した製品・サービスの比較一覧・導入活用事例・資料請求が無料でできるAIポータルメディア

中には、アノテーションという言葉自体を初めて聞いたという方もいるかと思いますので、まずはアノテーションがという言葉が何を意味するのかを学んでいきましょう。

そもそもアノテーション(annotation)とは、「注釈」という意味の英語です。要するに「注意を与える」という意味を持つ言葉なのですが、ビジネスシーンにおいては「テキストや音声、画像といったさまざまな形態のデータに、タグやメタデータを付ける作業」のことを指します。

AIの機械学習には「教師あり学習」「教師なし学習」という2つの学習方法が存在します。教師あり学習は、データの分類を行ったりデータをもとに予測したりする場合に用いる方法です。一方の教師なし学習は、類似しているもの同士でグループ分けを行う場合に用いる方法です。

こういった目的に沿うルールをAIに学習させるには、正確に学習させるための大量のデータが必要になります。そのため、AIの開発においてはデータへの正確なタグ付けが極めて重要になるわけです。そのプロセスを「アノテーション」と呼び、タグ付けされたデータのことを教師データといいます。

 

■アノテーションにはさまざまな種類がある

■アノテーションにはさまざまな種類がある|人工知能を搭載した製品・サービスの比較一覧・導入活用事例・資料請求が無料でできるAIポータルメディア

そんなアノテーションですが、その種類はひとつではありません。さまざまなアノテーションの種類が存在しますので、代表的なものをいくつか詳しくみていきましょう。

・意味的(セマンティック)アノテーション

意味的(セマンティック)アノテーションとは、「人名」「商品名」「企業名」といったテキスト内の単語に意味付けを行うタグ付けのことを指します。機械学習のアルゴリズムが正しくデータを読み込めるようにすることが主な目的です。この意味的アノテーションの主な活用例としては、チャットボットにおける学習、検索エンジンにおける関連性の改善などが挙げられるでしょう。

・画像(映像)アノテーション

画像(映像)アノテーションは、電子商取引における商品リスト分類などに活用されているものです。機械学習による画像認識(映像処理)は、機密情報の漏洩防止、自動車の自動運転などにも活用されています。
これらは、画像(映像)の内容を正しく理解しなければ機能しません。そのため、正確にタグ付けされた大量のデータを活用し、その現場測定データを用いて機械学習のアルゴリズムに画像認識(映像処理)の学習を行わせるのです。

・テキスト、コンテンツ分類

テキストやコンテンツの分類作業も「アノテーション」の一部といえるでしょう。あらかじめ定義付けされたカテゴリを、フリーテキストで書かれた文書に割り当てていくというものです。これにより、文章をトピックごとにタグ付けしていくことができるようになります。
代表例としては、ニュースサイトなどにおいて「国内」「スポーツ」「エンタメ」「経済」といったように、カテゴリごとにニュースを分類することなどが挙げられるでしょう。これはまさに、アノテーションによって実現できているものなのです。

・意味(インテント)抽出

チャットボットにおいては、ユーザーからの質問を正しい意味で理解し、適切な回答を示していくことが大切になります。例えば、飲食店のホームページに設置されたチャットボットに対して、以下のような問い合わせが寄せられた場合について考えてみましょう。

・キャンセル料はいくらでしょうか?
・無断でキャンセルした場合には、キャンセル料を取られますか?
・キャンセル料を支払い、予約をキャンセルします。

上記3つの文章にはすべて「キャンセル料」という言葉が含まれています。しかし、これら3つの問い合わせ内容はすべて異なっていることがお分かりいただけるでしょう。
1つ目、2つ目の文章は「キャンセル料に関する問い合わせ」ですが、3つ目の文章に関しては「キャンセルしたいという意思表示」であることが分かります。

そのため、単に「キャンセル料」という言葉を理解できても意味はなく、こういった文章の違いを的確に判断できるようにならなければなりません。意図(インテント)抽出は、まさにこういった問題に対処するための技術的なソリューションなのです。
語句や文のレベルでユーザーの意図を正しくタグ付けしていくため、特定の要求を行う際に使われる表現のライブラリが日々構築されていきます。この積み重ねによって、さまざまな文章の意図を的確に読み取ることができるようになるというわけです。

(参照:ZDNet Japan AI開発でよく耳にする「アノテーション」とは?)

 

■AI活用においてはアノテーションの精度を高めていくことが大きな鍵を握る

アノテーションは、精度の高いAIを開発する上で必要不可欠な作業であることがお分かりいただけたのではないでしょうか。AIは大量の学習データをもとに分析や予測を行うことは得意としているものの、その学習データがなければ一歩を踏み出すことはできません。そのため、最近では機械学習に欠かせない「データ作り」を一括で請け負うサービスを提供する企業も増えてきています。

場合によっては、初めの学習データが正確なものではなく、そのままAIの精度を高められなくなってしまうというケースも考えられます。そのようなトラブルを避けるためにも、よりアノテーションの精度を高めていくことが求められるでしょう。

AIの技術は日々進歩していますが、より有効にAIを活用できるかどうかは「いかに大量かつ高品質な学習データを用意できるか」という点にかかっているといえます。その事実をしっかりと受け入れた上で、AIの活用を検討していくべきでしょう。

 

アノテーションのサービス比較と企業一覧を見る

 

この記事で紹介されたAIサービスを無料で資料請求