生成AI

VLMで書類データの自動入力を実現

Vision-Language-Model(以下、VLM)を活用し、人間が手入力していた書類の自動入力を実現した事例を紹介します。

お客様の課題

ユーザーが書類の画像をアップロードし、画像の内容をユーザーが手入力して情報を処理・保管するサービスをP社は開発しています。ユーザーの利便性向上や入力ミス防止のために、画像をアップロードすれば書類の記載内容を自動でシステムに入力できるようにしたいと考えていました。

KICONIA WORKSと取り組むことになった理由

P社から相談をいただき、類似の実績があったこと、技術の進歩を踏まえてどう解決できそうかを具体的に示したことにより、KICONIA WORKSと取り組むことを決めていただきました。

プロジェクト成功の要因

短期間のPoCプロジェクトを複数回実施したことで、OCRを活用した手法とVLMを活用した手法の両方を試すことができました。結果的に、各手法のメリット・デメリットを理解した上でVLMを活用して性能向上をする意思決定をしていただき、本格導入に十分な性能まで改善することができました。
VLMのアップデートもあり、新しい技術をタイミングよくプロジェクトで検証することができたことも、成功要因です。

お客様からの評価

短期間のプロジェクトで目指していた性能に達することができたこと、VLMの性能評価手法はまだ絶対的な指標がない中でも定量的に性能を確認できたことに、大変満足していただきました。
本プロジェクトで開発した機能は、すでにP社にて本格的に活用されて成果を出しております。

プロジェクトチームからのメッセージ

  • 呉屋(エンジニア)
    VLMや使用したモデルのナレッジがまだ社内でもあまりない時期でしたが、検証と改善を重ねることでお客様にも満足していただく結果になりましたし、社内にナレッジも貯まって有意義なプロジェクトでした。
    書類の中でもVLMの取得性能が低い項目は改善対象にはせず、改善可能な項目に注力するという提案を受け入れていただき、効率よく性能向上に繋がったと思います。
  • 金保(プロジェクトマネージャー)
    検証結果をお客様に共有した上で、どの課題に取り組むかを建設的に議論できたことで効率的に性能向上に繋げることができました。
    また、OCRとVLMの両手法を比較することができ、個人的にも学びが多いプロジェクトでした。

PROJECT TEAM

下地

機械学習エンジニア

呉屋 寛裕

沖縄高専を卒業後、大手開発ベンダーにてIoTの受託案件や不動産売買の価格予測システム開発案件を担当。現在は自社プロダクトの開発から受託案件のAI開発やUI・インフラ開発までも行う。

下地

デザイナー/プロジェクトマネージャー

金保 裕介

神戸大学卒業後、デザインプロダクションで様々な案件を担当。大手企業のデザイン制作を経て、2015年にHIUP合同会社の立ち上げに参画。KICONIA WORKS参画後はPMやデザインディレクションを担当。