
― 標準OCRは比較してやめた。GASは「仕分け」しかしない ―
前回の記事では、配当明細書をOCRで完全自動化しようとして挫折した話を書きました。
今回はその続きとして、最終的にどんな設計に落ち着いたのかを整理します。
結論から言うと、今の私の配当明細処理では、
Gemini(BananaPro などの高精度OCR)が主役です。
一方で、GAS(Google Apps Script)も使っていますが、
その役割はかなり限定しています。
GASがやっているのは、 「どの配当明細が外国配当かを仕分ける」 それだけです。
数字を読むことも、税額を判断することも、
表を解釈することも、一切やっていません。
標準OCRは「使わなかった」のではなく「比較してやめた」
まず誤解されやすい点をはっきりさせておきます。
私は、
- Google Drive の標準OCR
- Vision API などの一般的なOCR
これらを最初から除外していたわけではありません。
実際に試しました。
その上で、外国税額控除という用途には向かないと判断してやめました。
理由は単純です。
- 文字は読めるが、意味を理解しない
- 表構造が崩れやすい
- 「配当金」と「税額」を文脈で区別できない
外国税額控除では、
「この数字が何を表しているのか」
が非常に重要になります。
単に数字が合っているかより、
意味を取り違えないことの方が致命的です。
この時点で、
標準OCRを主軸にする設計は現実的ではありませんでした。
なぜGemini(高精度OCR)が主役になったのか
外国税額控除という用途を前提にすると、
必要なのは次のような能力です。
- 表を表として理解できる
- 「配当金」「外国税」「国内税」を区別できる
- 人が見ている構造に近い形で読み取れる
Gemini(BananaPro 等)は、
単なる文字認識ではなく、
人間が配当明細を読むプロセスにかなり近い
という点で、他のOCRとは明確に違いました。
結果として、
- OCRはGemini一択
- 他のOCRは使わない
という判断になりました。
外国税額控除という用途が、設計を決めた
ここで改めて、目的を整理します。
私がやりたかったのは、
- 配当管理を完全自動化すること
ではなく、 - 外国税額控除の申告書類を、正確かつ納得感をもって作ること
です。
外国税額控除には、次の特徴があります。
- 年1回の作業
- 対象は外国株・海外ETFのみ
- 1円単位の正確性が求められる
この条件では、
- 雑に自動化する
- あとでまとめて確認する
というやり方は、むしろリスクが高いと感じました。
GASの役割は「外国配当かどうかの仕分け」だけ
では、GASは何をしているのか。
今の設計でGASが担っている役割は、
本当にこれだけです。
- 配当明細PDFを一覧として扱えるようにする
- どの明細が外国配当かを仕分ける
それ以上のことは、一切させていません。
- 数字は読ませない
- 税額は判断させない
- 表は解釈させない
なぜなら、そこは判断が重すぎる領域だからです。
一方で、
「この明細は外国配当かどうか」
この一次判定だけは、多少ラフでも致命傷になりません。
最悪、人が後から修正できます。
判断の重さで役割を分けた結果、設計が安定した
今の構成を一言で表すと、こうなります。
- 判断が軽いところ → GAS
- 判断が重いところ → Gemini
- 最終責任 → 人
GASは賢くある必要はありません。
Geminiも万能である必要はありません。
それぞれに「向いている仕事」だけを渡したことで、
設計が一気に安定しました。
「80%で割り切る」の意味は、精度の話ではない
以前は「80%で割り切る」と言うと、
- 精度を80%で妥協する
という意味合いがありました。
今は違います。
- 人がやる作業量を80%減らす
- ただし、判断の核心は妥協しない
という意味です。
これは精度の話ではなく、
責任をどこに置くかの話です。
なぜ「全部Gemini」にしなかったのか
ここまで読むと、
「最初から全部Geminiに投げればいいのでは?」
と思うかもしれません。
技術的には可能と思います。
ただ、私はそうしていません。
理由は、
- 処理コスト
- 確認コスト
- 精神的な依存
を考えると、
Geminiは主役だが、万能ではない
という距離感が、一番しっくりきたからです。
この設計で一番変わったこと
一番大きく変わったのは、不安の質です。
以前は、
- どこで間違っているか分からない
- でも全部は見切れない
という不安がありました。
今は、
- 重要な明細はGeminiで読んでいる
- 最後は自分の目で納得している
という状態です。
「全部自動」ではありません。
でも、「全部疑う」必要もありません。
この設計はどんな人に向いているか
このやり方は、次のような人に向いています。
- 外国税額控除を毎年やっている
- 配当明細の量がそれなりに多い
- AIを主役として使いたいが、丸投げは不安
- 自分が説明できる形で申告したい
逆に、
- 人は一切関与したくない
- AIの結果をそのまま信じたい
という人には向いていません。
次に書くこと
次の記事では、
- なぜAIに個人の金融データを渡すことに慎重になったのか
- だからGAS版も残している理由
について書く予定です。
Geminiを主役にしたからこそ、 あえてやらないことがはっきり見えてきました。
コメント