色々やってみたのですが、今回は預金明細のOCRを記事にしてみました。
ちなみに、ChatGPT 4o でもほぼ同じことが出来ました。
Geminiは、Google AIによって開発されたマルチモーダル大規模言語モデルです。
2023年12月に発表され、LaMDAとPaLM2の後継モデルとして位置付けられています。
Geminiの特徴
- テキストと画像の生成: テキストと画像の両方を生成することができます。これは、従来の言語モデルではできなかったことです。
- マルチモーダル理解: テキストと画像だけでなく、音声や動画などのマルチモーダルデータも理解することができます。
- 高度な推論能力: 複雑な質問や指示を理解し、それに応答することができます。
- 創造性: 詩、コード、台本、音楽作品、メール、手紙など、様々な創造的なテキスト形式を生成することができます。
( 「Geminiとは」でGeminiが回答した文言をコピペして貼ってます。)
通帳の画像データをエクセルにしてみた(実際はスプシ)
こちらの画像データをエクセルにしてみます。
「ゆうちょ銀行」の預金明細(取引履歴)をスキャンしたものです。
この画像を貼り付けで(アップロードして)、「エクセルにして」と入力し、送信ボタンをクリックします。
次のようになりました。
一番下まで行くと、エクスポートがあります。
エクセルではありませんが、「スプレッドシート」には簡単にエクスポートできます。
エクセルもスプシもさほど差はないかと。
スプレッドシートへのエクスポート
スプレッドシートにエクスポートすると次のようになります。
「お支払金額」の列に表示されるべき金額が「お預り金額」の列に表示されています。
▶手動で修正します。
「空白の行」が混じっています。(本来は「備考」の二段書きの下段が反映されます。)
▶手動で修正します。
「数字」「文字」に関しては、画像データが見事に反映されています。
通帳の画像データをCSVにしてみる
先ほどと同じ画像を「CSVにして」と入力してみました。
「回答案」が3つあったので、回答案3を選びました。
上記のコードをコピーしたものを、メモ帳にコピペ⇒名前を付けて保存⇒末尾を「.txt」から「.csv」にしたところ、文字化けしました。
「UTF-8」になっていたためです。
メモ帳の右下に「UTF-8」と表示されています。
「名前を付けて保存」から「エンコード」を変更して保存すると文字化けは解消されました。
使ってみての感想
画像データをエクセル・CSV・仕訳データ等に変換してもらう場合は、有料であれば正確に納品されます。
一方、多少の手直しは必要であっても、無料でここまで出来るのは素晴らしいと思います。
データ化までに時間がほとんどかからないというのも素晴らしいです。
従来の税理士事務所・会計事務所における「キーボード・テンキーを使っての仕訳入力」が得意な方の中には、絶望する人もいるかもしれないくらい凄いですね…
各社の「仕訳をデータ化してくれるサービス」を使ったときよりも衝撃的です…!
事務所の運営、委嘱業務の契約内容など、色々と考え直す必要がありそうです。
以上、【Gemini】AI活用で通帳のデータ化が爆速になりそう【OCR】 についてでした。