Skip to content

Instantly share code, notes, and snippets.

@gurimusan
Created May 22, 2019 16:29
Show Gist options
  • Save gurimusan/d1c6f3c1a73d6041d5b59b8f77f5f84a to your computer and use it in GitHub Desktop.
Save gurimusan/d1c6f3c1a73d6041d5b59b8f77f5f84a to your computer and use it in GitHub Desktop.
レシートを自動仕訳する技術

レシートを自動仕訳する技術

レシートの写真を取って、レシート画像からどうやれば下記の項目を自動で抽出できるだろうか?

  • 支払先
  • 支払日
  • 勘定科目
  • 金額

手法としては、自然言語処理とコンピュータビジョンの併用。

テキストはOCRを使って注出し、抽出したテキストは、それぞれの項目の抽出器によって予測される。

コンピュータビジョンを使うのは、画像がレシートであるかどうか、また支払先はレシート内のロゴによっても分類できそうなので。

テキストは下記の手順で構造化を行い、予測する。

  • 画像からテキストを抽出する
  • テキストから意味を持った情報を抽出する
  • 情報の言葉の揺れや略語などの正規化
  • 関係整理
Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment