Googleドキュメントで画像を簡単にOCR！その使い方とは？

Google Driveに画像データなどを保存、Googleドキュメントで簡単にOCR機能を使うことができるのを知っていますか？
認識率もなかなか良いので、参考にしてくださいね！

OCRとは

Optical Character Recognition/Readerの略で、訳すと「光学文字認識」です。
一般的に「文字認識」と言われ、画像データから文字データを認識してデジタル化する技術を指します。

OCRには有料・無料のソフトやアプリもありますが、認識率は読み取るデータの条件によって様々。
できるだけお金をかけずに認識率の高いソフトを探すのは、なかなか難しいです。

では、Googleドキュメントを使った場合はどうでしょうか？
とても簡単な作業でOCR化することができますよ。

実際にどの程度認識されるのか、実務に耐えうるか試してみました。

スマホで撮影したデータですが、ほとんど正しく認識されています。
名刺を作る時に誤って、在宅の読みを「ZAIRAKU」と作ってしまいました（汗）

名刺の文字が小さめでしたが、一部「渋」が「涉」となったり、ビミョーなところで認識誤りはありますが、なかなかイイ線をいっています。

カラフルな色で結果が出ましたが、表などはもちろん反映されていないベタ打ち。
「これなら手打ちのほうがマシ」と思うほどの見づらさがあります。

*一部見やすいように元データの画像を小さくしています

画像は無く、単なる文字の羅列。

文字列と数値も混在して1列に並んでしまっているので、これは使えない。ナシですね。

私の手書き文ですが、下手な文字でもある程度認識することがわかりました。

よくよく見ると、文の改行されている箇所には半角スペースが入っていました。芸が細かい。

*見やすいように、OCR結果のテキスト文字のフォントを大きくしています

こちらは横書きの文を縦書きに書き直したもの。
しっかり縦に書かれていることを認識し、文字化されています。

ただ、認識結果を見ると、やはり横書きよりは認識率は劣るようです。
文字の汚さもあるとは思いますが（笑）

こちらも改行ごとに半角スペースが入っていました。

*見やすいように、OCR結果のテキスト文字のフォントを大きくしています

今回、名刺はなかなかの認識率でした。

過去に同様の方法で名刺データを整える仕事をしたことがありますが、OCR結果をあまり修正すること無く、作業がサクサク進んだ経験があるので、予想通りでした。

名刺数枚程度ならば手入力もアリ。しかし、処理する枚数が多い場合にはこの方法は使えます。

とはいえ、誤認識する箇所もあるので、最終的に目視チェックは必要です。

手書き文も、横書きは認識率が高い印象ですが、縦書きでもそこそこイケることにびっくりでした。

一方で、PDFデータの認識率がイマイチという結果に。
元の画像データの解像度など、条件によることがよくわかりました。

また、罫線などは入らずに文字だけが並ぶので、目視でのチェックには不向き。
手入力をしたほうが早そうです。

とはいえ、PDFデータがたくさんあってOCR処理をしたい場合には、有料ですが「Adobe Acrobat Pro DC」や、もう少し高機能のORCソフトを探したほうがベターです。

今回実際に試してみたところ、思ったより文字認識率が高い印象でした。

「画像データにOCR処理をしたいけど、どのソフトがいいかわからないし、お金もかけたくない！」

という方は、まずはGoogleドライブとドキュメントを利用したOCR処理を試してみてはいかがでしょうか？