Googleドキュメントで画像を簡単にOCR!その使い方とは?

Googleドキュメント

Google Driveに画像データなどを保存、Googleドキュメントで簡単にOCR機能を使うことができるのを知っていますか?
認識率もなかなか良いので、参考にしてくださいね!

OCRとは

Optical Character Recognition/Readerの略で、訳すと「光学文字認識」です。
一般的に「文字認識」と言われ、画像データから文字データを認識してデジタル化する技術を指します。

OCRには有料・無料のソフトやアプリもありますが、認識率は読み取るデータの条件によって様々。
できるだけお金をかけずに認識率の高いソフトを探すのは、なかなか難しいです。

使い方

では、Googleドキュメントを使った場合はどうでしょうか?
とても簡単な作業でOCR化することができますよ。

  1. Googleドライブの任意の場所に、画像・PDFデータを保存する
    *今回はいくつかテスト用画像を用意しました。
  2. 保存したデータを右クリック→アプリで開く→Googleドキュメントを選択
  3. Googleドキュメントが開き、画像の下にOCR後の文字を表示。Googleドキュメントもファイルも生成される。

 

実際に試してみた

実際にどの程度認識されるのか、実務に耐えうるか試してみました。

名刺の画像

スマホで撮影したデータですが、ほとんど正しく認識されています。
名刺を作る時に誤って、在宅の読みを「ZAIRAKU」と作ってしまいました(汗)

名刺の文字が小さめでしたが、一部「渋」が「」となったり、ビミョーなところで認識誤りはありますが、なかなかイイ線をいっています。

 

Excelの表をキャプチャしたもの

カラフルな色で結果が出ましたが、表などはもちろん反映されていないベタ打ち
「これなら手打ちのほうがマシ」と思うほどの見づらさがあります。

*一部見やすいように元データの画像を小さくしています

Excel表をPDF化したもの

画像は無く、単なる文字の羅列。

文字列と数値も混在して1列に並んでしまっているので、これは使えない。ナシですね。

手書き文(横書き)

私の手書き文ですが、下手な文字でもある程度認識することがわかりました。

よくよく見ると、文の改行されている箇所には半角スペースが入っていました。芸が細かい。

*見やすいように、OCR結果のテキスト文字のフォントを大きくしています

手書き文(縦書き)

こちらは横書きの文を縦書きに書き直したもの。
しっかり縦に書かれていることを認識し、文字化されています。

ただ、認識結果を見ると、やはり横書きよりは認識率は劣るようです。
文字の汚さもあるとは思いますが(笑)

こちらも改行ごとに半角スペースが入っていました。

*見やすいように、OCR結果のテキスト文字のフォントを大きくしています

結果

名刺や手書きはなかなか良い

今回、名刺はなかなかの認識率でした。

過去に同様の方法で名刺データを整える仕事をしたことがありますが、OCR結果をあまり修正すること無く、作業がサクサク進んだ経験があるので、予想通りでした。

名刺数枚程度ならば手入力もアリ。しかし、処理する枚数が多い場合にはこの方法は使えます。

とはいえ、誤認識する箇所もあるので、最終的に目視チェックは必要です。

 

手書き文も、横書きは認識率が高い印象ですが、縦書きでもそこそこイケることにびっくりでした。

 

PDFはイマイチ

一方で、PDFデータの認識率がイマイチという結果に。
元の画像データの解像度など、条件によることがよくわかりました。

また、罫線などは入らずに文字だけが並ぶので、目視でのチェックには不向き。
手入力をしたほうが早そうです。

とはいえ、PDFデータがたくさんあってOCR処理をしたい場合には、有料ですが「Adobe Acrobat Pro DC」や、もう少し高機能のORCソフトを探したほうがベターです。

まとめ

今回実際に試してみたところ、思ったより文字認識率が高い印象でした。

「画像データにOCR処理をしたいけど、どのソフトがいいかわからないし、お金もかけたくない!」

という方は、まずはGoogleドライブとドキュメントを利用したOCR処理を試してみてはいかがでしょうか?

コメント

タイトルとURLをコピーしました