AIsmiley Magazine

AIsmiley編集部によるAI・人工知能サービスの導入事例や活用事例などの情報を記事にしてお届けします

AI・人工知能サービス

最終更新日:2020/6/23

OCRはオフィス文書のデジタル化に有効?無料のフリーソフトで試してみよう!

  • 業種・業態
  • 編集部記事

OCRはオフィス文書のデジタル化に有効?無料のフリーソフトで試してみよう!|AI・人工知能製品・サービスの比較一覧・導入活用事例・資料請求が無料でできるメディア

OCR(光学認識技術)とは、紙文書のデータを読み込んでデジタル化する技術のことです。日本のオフィスワーカーの生産性向上を阻む壁のひとつに、大量の紙文書の存在があるとされており、OCRの活用がその解決につながると期待されています。ただ、新たなソフトウェアや技術を導入する時に、まずはスモールスタートで始めてみたいというニーズはあるでしょう。そうした方におすすめしたいのが、フリーソフトの活用です。

■OCRの仕組み

OCRのフリーソフトについてご紹介していく前に、まずはOCRの仕組みについて詳しくみていきましょう。

一般的なOCR処理の場合、スキャナーでスキャニングするだけで実行されるわけではありません。スキャニングを行った後にOCRの専用ソフトを使用してテキストを抽出し、ドキュメントとして出力されるというのが一般的です。そんなOCR処理の具体的な流れは、以下のようになっています。

 

1.画像の取り込み

まずは書籍や書類などをスキャナーでスキャニングして、画像として取り込みます。この時点ではまだOCR処理は施されていません。

 

2.画像と文字列の分離

ここから本格的にOCR処理が始まります。書籍や書類は段組で記載されているケースが多いため、まず画像と文字列を分離させ、解析を行う文字列を明確にします。

 

3.文字列の解析

画像と文字列の分離が終わったら、文字列を1行ずつ分解した上で、さらに1文字ずつの分解を行います。

 

4.文字の解析

1文字ずつの分解が終了したら、「ターゲットの文字が何の文字か」という解析を1文字ずつ行っていきます。その文字がどのような線で構成されているのか、特徴をしっかりと捉えた上で、ソフト内から該当する文字のマッチングを行っていくわけです。そして、文字の前後から該当する単語があるかどうかを確認し、合致した場合にはそれをデータとして決定します。

 

5.出力

最後に、PDFなどの画像に出力したり、WordやExcelなどのドキュメントに出力したりすれば、OCR処理の完了です。

 

■OCRを利用することで得られるメリット

OCRを利用することで得られるメリットとしては、主に以下のような点が挙げられるでしょう。

 

・書籍や書類の保管スペースを削減できる

書籍や書類といった紙媒体を保管する場合、保管スペースを用意しなければなりません。そのため、年数が経過するごとに保管スペースの空きが少なくなり、いずれは保管スペースが足らなくなってしまう可能性もあるのです。
しかし、OCRで紙媒体をデータ化してしまえば、段ボール1箱分ほどの書類データもわずか数MBほどのデータとして保存できてしまうため、オフィスの空きスペースを圧迫してしまう心配がありません。スペースを別の用途で有効活用することもできますので、非常にメリットは大きいといえるでしょう。

 

・データを簡単に探し出せる

紙媒体を保管している場合、必要な書類をピンポイントで探し出すのは決して簡単ではありません。場合によっては探し出す作業に多くの時間を費やしてしまうこともあるでしょう。その点、OCRを活用すればパソコン上でいつでも簡単に情報を検索することができるため、必要な書類を探し出すための時間を削減できるのです。

 

・データの編集や活用も簡単に行える

紙媒体の場合、その情報を編集したりグラフ作成に活用したりする際にも手間がかかってしまいます。しかし、OCRでテキストデータ化しておけば、より簡単にデータを編集したり、表計算ソフトに活用したりすることが可能です。

 

■意外な盲点?!身近なGoogleドライブでもOCRが無料で体験できる

フリーのOCR活用の第一歩としておすすめしたいのが、GoogleドライブのOCR文字抽出機能です。使い方は簡単で、データ化したいPDFファイルや画像ファイルなどをGoogleドライブにアップロードし、Googleドキュメントで開くだけ。Googleのサービスのひとつなのでもちろん無料で使えますし、操作も簡単です。それでいて漢字の識字率などもかなり高度で、日本語の縦書き文書などにもある程度対応しています。

意外な盲点?!GoogleドライブでもOCRが利用できる|AI・人工知能製品・サービスの比較一覧・導入活用事例・資料請求が無料でできるメディア

最近の学生は、黒板の板書をスマホで撮影してOCRを使ってデータ化、という使い方もするのだとか。身近なGoogleのサービスで、OCRを無料体験できるのは盲点といえるのではないでしょうか。

文字認識の精度はまだ完璧とはいえないかもしれませんが、GoogleはAI・人工知能による学習機能を取り入れており、他のサービスに比べて圧倒的に利用者の母数が多いので、次第に精度は改善されていくと考えられます。

また、Googleによると以下のポイントを抑えれば、よりOCRの精度が高まるとのことです。

 

・ファイル形式はJPEG、PNG、GIF、PDF(複数ページのドキュメント)のいずれか

・ファイルサイズは 2 MB 以下にする

・テキストの解像度は高さ 10 ピクセル以上にする

・ドキュメントを正しい向きで取り込む。画像の向きが間違っている場合は、回転させてから Google ドライブにアップロードする

・ Google ドライブではドキュメントの言語は検出されない

・フォントは、Arial や Times New Roman のような一般的なフォントを使用する

・明るさが均一でコントラストがはっきりしたシャープな画像が最適

 

また、Evernote(エバーノート)にも標準でOCR機能が備わっています。ただ、Googleドライブのようにテキストとして文字起こしはできず、一部機能は有料です。

(参照:Googleドライブ ヘルプ PDF や写真のファイルをテキストに変換する)

 

■Googleドライブ以外のOCRフリーソフトも活用してみよう

OCRフリーソフトとして特に有名なのは上記でご紹介したGoogleドライブですが、他にも無料で利用できるソフトは多く存在します。ここからは、いくつか代表的なOCRフリーソフトをご紹介しますので、ぜひ有効活用してみてはいかがでしょうか。

 

・Light PDF

Light PDFは、オンライン上でPDFの編集を行ったり、他のフォーマットへの変換を行ったりする機能がメインのフリーソフトです。ただ、OCR機能も備わっているので、OCRを無料で利用したい人にもおすすめのソフトといえます。そんなLight PDFの大きな特徴としては、Google Chromeの拡張機能として使用できるため、MacでもWindowsでも利用できて利便性が高いこと挙げられるでしょう。
ちなみにLight PDFには無料版と有料版の2種類が存在するのですが、無料版では1言語の認識が可能です。出力形式に関しても、無料版はtxtファイル形式のみとなっているので、より多様な使い方を想定している場合には、無料版で試した後に有料版を検討していくのが良いでしょう。

 

・OCR.Space

OCR.Spaceは、JPGやPNG、PDFなどのさまざまなファイルをテキストファイルに変換できるフリーソフトです。Light PDFと同様にソフトウェアをインストールする必要がないので、MacでもWindowsでも利用することができます。また、アカウントを作成する必要がないという点も大きな特徴のひとつでしょう。言語も20ヶ国語に対応しているなど、汎用性の高さが大きな魅力となっています。
ただ、利用する際の注意点として、利用できるファイルの容量に上限が設けられていることが挙げられます。イメージファイルとPDFファイルに関しては5MBが上限となっており、手書きのドキュメントも使用できないため注意が必要です。

 

・i2OCR

i2OCRも、Light PDFやOCR.Spaceと同様にブラウザ上での利用が可能なOCRフリーソフトです。大きな特徴としては、100を超える言語に対応していることや、JPG・PNG、TIF、BMPといった多くのファイル形式に対応していることなどが挙げられます。
また、イメージファイルをテキストファイルに変換するのはもちろんのこと、ブラウザ上にある画像をテキストファイルに変換する機能も備わっているため、より多様な使い方が可能です。さらに、画像の枚数制限も設けられていないので、積極的に活用することができます。ただ、ファイルサイズに関しては「最大10MB」となっているため注意しましょう。
なお、日本語の認識精度が高くないという弱点があるため、日本語だけを使用する方は不便さを感じることも多いかもしれません。一方、外国語を多用する人であれば柔軟な使い方ができるでしょう。

 

■面倒な請求書や領収書の処理もAI-OCRで

オフィス業務でのOCR活用で効果が期待されているのが、請求書の読み取り作業です。

月末になると請求書が大量に送られてくるものの、取引先ごとに形式はバラバラ。既存のOCRソフトではうまく読み取りができず、結局人力での読み取りと入力作業が必要・・・・・・という悩みを抱えている企業も多いかもしれません。

そうした場合に活用したいのが、一歩進んだOCR技術「AI-OCR」です。人工知能とOCRを組み合わせることで、フォーマットがばらばらの請求書のような非定型帳票もスムーズにデータ化してくれます。「請求書の枚数が多く、入力作業に時間かかる」「入力ミスが多く、データのチェックや修正に時間をとられる」「正確性を期すためにダブルチェック、トリプルチェックが必要」といったケースには、AI-OCRの活用を検討するとよいかもしれません。

ここからは、いくつか代表的なAI-OCRをご紹介していきますので、ぜひ参考にしてみてください。

 

◆AI-OCRソフト1:FEEDER

FEEDERは、領収書をスマホで撮影してアップロードするだけで経費精算レポートが作成できるOCRソフトウェアです。大きな特徴としては、識字率が極めて高いことが挙げられるでしょう。FEEDERの画像からの活字識字率は1文字単位で99%と極めて高く、複数の文字を認識する場合の識字率に関しても90%となっています。

もちろん、読み取ったデータはAIが学習するための材料にもなるため、使用するごとに識字率は向上していくでしょう。

また、領収書には「日付」「金額」「費目」「取引先」といったさまざまな項目が存在しますが、FEEDERはそれらの項目をAIが自動で判定していくため、経費精算業務の負担を大幅に軽減させることができます。

さらに、スマートフォンで領収書を撮影し、そのままアップロードしていくことも可能です。スマホで手軽にアップロードできるという点は、効率よく業務を進める上でも有効なものといえるのではないでしょうか。

 

FEEDERを無料で資料請求する

 

◆AI-OCRソフト2:sweeep

sweeepは、請求書の読み取りに特化したOCRソフトウェアです。100枚の請求書をわずか3分で処理することができる点などは大きな特徴とえるでしょう。

また、3つのステップで簡単に自動化できるという点も、sweeepの大きな魅力です。1つ目のステップでは、スキャナで請求書を読み取り、sweeepに連携します。これは非定型のレイアウトでも問題ありません。

2つ目のステップでは、sweeepがOCR技術によって請求書を読み取ります。内容を自動で判別して仕分けデータを作成してくれるため、特に難しい操作を行う必要もありません。

そして3つ目のステップでは、sweeepから仕分けデータをダウンロードします。そして会計システムに連携させれば終了です。OCRに対して「操作が難しそう」といったイメージをお持ちの方もいらっしゃるかもしれませんが、sweeepのような操作が簡単なソフトウェアであれば、気軽に導入していくことができるでしょう。

また、以下のような機能も、「経理にとって必要な作業は何か」をしっかりと考えた上で作られたものであるため、より経理業務の負担を軽減させることができるでしょう。

 

・高精度OCR

高い認識率のOCRでスキャンされた請求書を、正確にデータ化することができます。一度スキャンした請求書はAIが記憶していくため、さらに読み取りの精度を高めていくことも可能です。

 

・自動帳票定義AI

一般的なOCRの場合、どこに何が書いてあるのかを指定する「帳票定義」を手動で行わなくてはなりません。しかし、sweeepにはAIが搭載されているため、これらをすべて自動化させることができます。

 

・IP制限

sweeepを利用するIPアドレスを制限することが可能です。この制限を設けることにより、外部からの侵入を防ぎ、外部への情報漏洩リスクを下げることができます。

フリーソフトでは、AI-OCRを活用して請求書の読み取りに特化した高度なものはまだ出ていないかもしれませんが、有料ソフトの中にも機能を限定した体験版やある一定のトライアル期間を無料で設けているものもあるので、そうした機会を利用して検討してみるのも良いかもしれません。

自社にとって必要な機能は何かを明確にした上で、AI-OCRを比較検討してみてはいかがでしょうか。

 

AI-OCRのサービス比較と企業一覧を見る

 

 

pids=1707

このAI記事が気に入ったら
いいね ! しよう

Twitter でAIポータルメディアAIsmileyを
この記事で紹介されたAIサービスを無料で資料請求