Google Driveに画像データなどを保存、Googleドキュメントで簡単にOCR機能を使うことができるのを知っていますか?
認識率もなかなか良いので、参考にしてくださいね!
OCRとは
Optical Character Recognition/Readerの略で、訳すと「光学文字認識」です。
一般的に「文字認識」と言われ、画像データから文字データを認識してデジタル化する技術を指します。
OCRには有料・無料のソフトやアプリもありますが、認識率は読み取るデータの条件によって様々。
できるだけお金をかけずに認識率の高いソフトを探すのは、なかなか難しいです。
使い方
では、Googleドキュメントを使った場合はどうでしょうか?
とても簡単な作業でOCR化することができますよ。
- Googleドライブの任意の場所に、画像・PDFデータを保存する
*今回はいくつかテスト用画像を用意しました。
- 保存したデータを右クリック→アプリで開く→Googleドキュメントを選択
- Googleドキュメントが開き、画像の下にOCR後の文字を表示。Googleドキュメントもファイルも生成される。
実際に試してみた
実際にどの程度認識されるのか、実務に耐えうるか試してみました。
名刺の画像
スマホで撮影したデータですが、ほとんど正しく認識されています。
名刺を作る時に誤って、在宅の読みを「ZAIRAKU」と作ってしまいました(汗)
名刺の文字が小さめでしたが、一部「渋」が「涉」となったり、ビミョーなところで認識誤りはありますが、なかなかイイ線をいっています。
Excelの表をキャプチャしたもの
カラフルな色で結果が出ましたが、表などはもちろん反映されていないベタ打ち。
「これなら手打ちのほうがマシ」と思うほどの見づらさがあります。
*一部見やすいように元データの画像を小さくしています
Excel表をPDF化したもの
画像は無く、単なる文字の羅列。
文字列と数値も混在して1列に並んでしまっているので、これは使えない。ナシですね。
手書き文(横書き)
私の手書き文ですが、下手な文字でもある程度認識することがわかりました。
よくよく見ると、文の改行されている箇所には半角スペースが入っていました。芸が細かい。
*見やすいように、OCR結果のテキスト文字のフォントを大きくしています
手書き文(縦書き)
こちらは横書きの文を縦書きに書き直したもの。
しっかり縦に書かれていることを認識し、文字化されています。
ただ、認識結果を見ると、やはり横書きよりは認識率は劣るようです。
文字の汚さもあるとは思いますが(笑)
こちらも改行ごとに半角スペースが入っていました。
*見やすいように、OCR結果のテキスト文字のフォントを大きくしています
結果
名刺や手書きはなかなか良い
今回、名刺はなかなかの認識率でした。
過去に同様の方法で名刺データを整える仕事をしたことがありますが、OCR結果をあまり修正すること無く、作業がサクサク進んだ経験があるので、予想通りでした。
名刺数枚程度ならば手入力もアリ。しかし、処理する枚数が多い場合にはこの方法は使えます。
とはいえ、誤認識する箇所もあるので、最終的に目視チェックは必要です。
手書き文も、横書きは認識率が高い印象ですが、縦書きでもそこそこイケることにびっくりでした。
PDFはイマイチ
一方で、PDFデータの認識率がイマイチという結果に。
元の画像データの解像度など、条件によることがよくわかりました。
また、罫線などは入らずに文字だけが並ぶので、目視でのチェックには不向き。
手入力をしたほうが早そうです。
とはいえ、PDFデータがたくさんあってOCR処理をしたい場合には、有料ですが「Adobe Acrobat Pro DC」や、もう少し高機能のORCソフトを探したほうがベターです。
まとめ
今回実際に試してみたところ、思ったより文字認識率が高い印象でした。
「画像データにOCR処理をしたいけど、どのソフトがいいかわからないし、お金もかけたくない!」
という方は、まずはGoogleドライブとドキュメントを利用したOCR処理を試してみてはいかがでしょうか?
コメント