【Gemini】AI活用で画像のデータ化が爆速になった【OCR】

色々やってみたのですが、今回は預金明細のOCRを記事にしてみました。

ちなみに、ChatGPT 4o でもほぼ同じことが出来ました。

Geminiとは

Geminiは、Google AIによって開発されたマルチモーダル大規模言語モデルです。
2023年12月に発表され、LaMDAとPaLM2の後継モデルとして位置付けられています。

Geminiの特徴

  • テキストと画像の生成: テキストと画像の両方を生成することができます。これは、従来の言語モデルではできなかったことです。
  • マルチモーダル理解: テキストと画像だけでなく、音声や動画などのマルチモーダルデータも理解することができます。
  • 高度な推論能力: 複雑な質問や指示を理解し、それに応答することができます。
  • 創造性: 詩、コード、台本、音楽作品、メール、手紙など、様々な創造的なテキスト形式を生成することができます。



( 「Geminiとは」でGeminiが回答した文言をコピペして貼ってます。)

目次

通帳の画像データをエクセルにしてみた(実際はスプシ)

こちらの画像データをエクセルにしてみます。

「ゆうちょ銀行」の預金明細(取引履歴)をスキャンしたものです。


この画像を貼り付けで(アップロードして)、「エクセルにして」と入力し、送信ボタンをクリックします。



次のようになりました。


一番下まで行くと、エクスポートがあります。

エクセルではありませんが、「スプレッドシート」には簡単にエクスポートできます。

エクセルもスプシもさほど差はないかと。

スマホで通帳の履歴を撮影したものでも試しましたが、難なく出来ました。

スプレッドシートへのエクスポート

スプレッドシートにエクスポートすると次のようになります。

「お支払金額」の列に表示されるべき金額が「お預り金額」の列に表示されています。
▶手動で修正します。

「空白の行」が混じっています。(本来は「備考」の二段書きの下段が反映されます。)
▶手動で修正します。

「数字」「文字」に関しては、画像データが見事に反映されています。

通帳の画像データをCSVにしてみる

先ほどと同じ画像を「CSVにして」と入力してみました。

回答案」が3つあったので、回答案3を選びました。

上記のコードをコピーしたものを、メモ帳にコピペ⇒名前を付けて保存⇒末尾を「.txt」から「.csv」にしたところ、文字化けしました

UTF-8」になっていたためです。

メモ帳の右下に「UTF-8」と表示されています。


「名前を付けて保存」から「エンコード」を変更して保存すると文字化けは解消されました。

使ってみての感想

画像データをエクセル・CSV・仕訳データ等に変換してもらう場合は、有料であれば正確に納品されます。

一方、多少の手直しは必要であっても、無料でここまで出来るのは素晴らしいと思います。

データ化までに時間がほとんどかからないというのも素晴らしいです。

従来の税理士事務所・会計事務所における「キーボード・テンキーを使っての仕訳入力」が得意な方の中には、絶望する人もいるかもしれないくらい凄いですね…

各社の「仕訳をデータ化してくれるサービス」を使ったときよりも衝撃的です…!

事務所の運営、委嘱業務の契約内容など、色々と考え直す必要がありそうです。


以上、【Gemini】AI活用で通帳のデータ化が爆速になりそう【OCR】 についてでした。

目次