レシートの写真を取って、レシート画像からどうやれば下記の項目を自動で抽出できるだろうか?
- 支払先
- 支払日
- 勘定科目
- 金額
手法としては、自然言語処理とコンピュータビジョンの併用。
テキストはOCRを使って注出し、抽出したテキストは、それぞれの項目の抽出器によって予測される。
コンピュータビジョンを使うのは、画像がレシートであるかどうか、また支払先はレシート内のロゴによっても分類できそうなので。
テキストは下記の手順で構造化を行い、予測する。
- 画像からテキストを抽出する
- テキストから意味を持った情報を抽出する
- 情報の言葉の揺れや略語などの正規化
- 関係整理