AIsmiley Magazine

AIsmiley編集部によるAI・人工知能サービスの導入事例や活用事例などの情報を記事にしてお届けします

AI・人工知能サービス

最終更新日:2020/5/13

機械学習に欠かせない「アノテーション」を行うツール3選

  • 業種・業態
  • 編集部記事

機械学習に欠かせない「アノテーション」を行うツール3選|人工知能を搭載した製品・サービスの比較一覧・導入活用事例・資料請求が無料でできるAIポータルメディア

近年、AI・人工知能の技術は急速に進歩しており、さまざまな業界でAIを導入するケースが見受けられます。実際、AIを活用したサービスを利用する方や、実際に業務でAIを活用する方も増えてきていることでしょう。

そんなAI領域ですが、専門用語も数多く存在しているため、正しく理解した上でAIを使いこなしていくには専門用語の理解が欠かせません。そこで今回は、AIを理解する上で重要な「アノテーション」について詳しく解説するとともに、アノテーションを行うツールをご紹介していきますので、ぜひ参考にしてみてください。

■そもそも「アノテーション」とは何か?

■そもそも「アノテーション」とは何か?|人工知能を搭載した製品・サービスの比較一覧・導入活用事例・資料請求が無料でできるAIポータルメディア

アノテーションとは、音声や画像、テキストなど、さまざまな形態のデータに対してタグ付けを行っていく作業のことを指します。このタグ付けされたデータを取り込むことによって、AIはそれぞれのデータのパターンを認識することができるようになり、アルゴリズムを学習できるのです。そのため、機械学習アルゴリズムを学習させるためには、タグ付けしたデータが欠かせません。

そんなアノテーションですが、種類はひとつだけではありません。さまざまな種類のアノテーションが存在しますので、代表的なものをみていきましょう。

 

・意味的(セマンティック)アノテーション

意味的アノテーションとは、人の名前や商品名、企業名など、テキスト内のさまざまな単語に対して意味付けを行うアノテーションのことです。主に、検索エンジンにおける関連性の改善や、チャットボットの学習などに用いられています。

 

・画像・映像アノテーション

画像・映像アノテーションは、機械学習による画像認識・映像処理の精度を高めるためのアノテーションです。機密情報の漏洩防止や商品リストの分類、自動車の自動運転など、さまざまな分野で活用されています。当然こういった機械学習モデルには画像・映像の内容を理解するための力が求められるため、画像認識や映像処理を機械学習アルゴリズムに正しく学習させるためにも、正確にタグ付けされたデータを大量に用意することが重要になるわけです。

 

・文節チャンキング

文節チャンキングでは、名詞や動詞、形容詞といった品詞にタグ付けを行います。品詞がひとつ変わるだけで文章の意味合いが大きく変化することも少なくないため、文章の意味を正しく理解する必要がある「チャットボットの開発」などにおいては文節チャンキングが欠かせません。

 

・テキストやコンテンツの分類

テキストやコンテンツの分類も「アノテーション」に該当します。テキストやコンテンツの分類というのは、具体的には、あらかじめ定義したカテゴリを、フリーテキストで書かれた文書に割り当てていくという作業です。これにより、文書内の文や段落を、トピックごとにダグ付することなどが可能になります。
ニュースサイトで、「芸能」「スポーツ」「政治」といったカテゴリごとに表示されているのを目にしたことがある方も多いのではないでしょうか。こういったニュース記事のカテゴリ分けは、まさにこのアノテーションによって実現されているものなのです。

 

・エンティティアノテーション

エンティティアノテーションとは、AIが正しく文章を認識できるように、非構造化文章にタグを付ける作業のことを指します。「エンティティ」は、データの構築を行う際に、「人」「物」「地名」「事象」「サービス」といった対象物をカテゴリごとに分ける作業のことです。このエンティティに基づいて非構造化文章にタグ付けをすることで、AIが文章を正しく認識することができるようになるのです。
ただ、このエンティティアノテーションにもさまざまな種類が存在しており、多くのソリューションでは複数のシステムが組み込まれています。そのため、データサイエンティストが要棟に応じた方法でデータを操作することが可能です。

 

・意図抽出

チャットボットを構築する場合、ユーザーから寄せられた質問の意図を適切に認識できるようにするアルゴリズムが必要可決です。たとえば、旅行サイトのチャットボットに対して以下のような問い合わせが寄せられたとします。

・キャンセル料を支払うので、予約をキャンセルしたいです。
・キャンセルする場合、キャンセル料は発生しますか?
・無断でキャンセルした場合のキャンセル料はいくらですか?

上記の文章にはすべて「キャンセル料」という言葉が含まれています。しかし、それぞれの文章の「意味」は大きく異なるものであることがお分かりいただけるでしょう。そのため、チャットボットがこれらの「意味」を的確に理解できるようにしておかなければ、「キャンセル料がいくらなのか知りたい」という問い合わせに対して「キャンセルを申請している」という誤った認識をしてしまう可能性があるのです。

このようなミスを防ぐためにも、意図抽出によって語句や文というレベルでのタグ付けが必要になります。文章を適切に理解する上で、この意味抽出は極めて重要であることがお分かりいただけるでしょう。

(参照:ZDNet Japan AI開発でよく耳にする「アノテーション」とは?)

 

■機械学習や画像処理で有効活用できるアノテーションツール

アノテーションがどのような作業なのかお分かりいただけたかと思いますが、ここからは実際にアノテーションを行うことができるツールをご紹介していきます。ぜひ参考にしてみてください。

 

◆Lionbridge AI

◆Lionbridge AI|人工知能を搭載した製品・サービスの比較一覧・導入活用事例・資料請求が無料でできるAIポータルメディア

(参照:Lionbridge AI)

Lionbridge AIは、AI事業を展開する企業に対してAI学習データを提供しているプラットフォームです。すでに50万人以上のクラウドワーカーが登録しており、何万枚といった画像でも適切なタグによってスピーディーにアノテーションすることができます。また、幅広いアノテーションに対応しているのも特徴です。Lionbridge AIでは主に以下のようなアノテーションを行うことができるようになっています。

・翻訳
・商品のジャンル分け
・言語識別
・テキスト抽出
・OCR文字校正
・文字起こし
・感情分析
・映像・画像アノテーション
・データ分類
・コンテンツ分類
・音声・スピーチ分析
・エンティティ抽出

 

Lionbridge AI -アノテーション-の詳細を見る

 

◆Microsoft VoTT

◆Microsoft VoTT|人工知能を搭載した製品・サービスの比較一覧・導入活用事例・資料請求が無料でできるAIポータルメディア

(参照:microsoft/VoTT: Visual Object Tagging Tool: An electron app for building end to end Object Detection Models from Images and Videos.)

VoTT(Visual Object Tagging Tool)は、Microsoftが提供している無料のアノテーションツールです。動画や画像に対してアノテーションを行うことができ、WindowsやMac、Linuxなどクロスプラットフォームで利用することもできます。そんなVoTTの主な特徴としては、以下のような点が挙げられます。

・GUI 操作により、専門知識がない人でも手軽にタグ付けができる
・動画と画像に対してタグ付けでき、特に動画はトラッキング機能があるため使いやすい
・CNTK、Tensorflow(Pascal VOC)、YOLO のアルゴリズムを使う場合は、そのまま使用できる形式で出力可能

上記が主な特徴といえますが、使用するにあたり注意しなければならない点も存在します。例えば、アノテーションによって出力された json ファイルを画像切り出しに使う場合には、ファイル名が格納されません。そのため、ファイル名を別に取得する必要があるわけです。また、CNTK、Tensorflow(Pascal VOC)、YOLO以外のアルゴリズムを使う場合には、データセットが別で必要になるため注意しましょう。

 

◆LabelBox

◆LabelBox|人工知能を搭載した製品・サービスの比較一覧・導入活用事例・資料請求が無料でできるAIポータルメディア

(参照:Labelbox: The leading training data solution)

LabelBoxは、年間500ラベルまで無料で使用することができる画像アノテーションツールです。LobelBox上のサーバーに画像データをアップロードして使用したり、AWS(Amazon Web Services)上にある自社のデータに対して使用したりすることができます。物体検出用のBounding Boxだけでなく、Semantic Segmentationで使用できるPolygon、姿勢推定に使用できるPointなどにも対応しているのが特徴です。
また、出力フォーマットに関しても豊富な形式に対応しており、CSVやJSON、Pascal VOC、COCOといった形式での出力が可能になっています。

 

■AI開発を合理的に進めるためにもアノテーションツールを活用しよう

今回は、アノテーションについて解説するとともに、アノテーションを行ってくれるツールについても紹介させていただきました。開発担当者がいちからAIを開発していく場合、相当な時間を要することが予想されますが、最近ではアノテーションを支援する企業やツールも非常に多くなってきています。そのため、自社にとって最適なアノテーションツールを活用することができれば、より合理的にAI開発を進めていくことができるでしょう。

少子高齢化による働き手不足の深刻化によって、AIによる業務効率化に注目が集まっているにも関わらず、AIの開発に多くの時間を費やしてしまっては意味がありません。より効率的にAIを活用していくためにも、導入への最短距離を歩んでいくことが大切になるのではないでしょうか。

そのためにも、機械学習アルゴリズムの構築を正確かつスピーディーに進めてくれるパートナーの存在が必要不可欠です。アノテーションはAIの品質に直結するものであり、AIは企業の業績にも直結するものといえますので、ぜひ今回ご紹介した内容を参考に、アノテーションサービスやアノテーションツールの利用を検討していってみてください。また、無料で使用できるアノテーションツールも存在しますので、それらも併せて有効活用していくと良いでしょう。

 

アノテーションのサービス比較と企業一覧を見る

 

このAI記事が気に入ったら
いいね ! しよう

Twitter でAIポータルメディアAIsmileyを
この記事で紹介されたAIサービスを無料で資料請求