NEWS

CLOVA AI技術でより強力になった「CLOVA Document OCR」特化モデルリリース

2021-03-12    hit . 60993


レシート、クレジットカード、名刺などの形態・様式がバラバラな非定形文書の認識率向上


Naver Cloud社が、非定形の業務文書で使用者が欲しい情報だけを抽出する「 CLOVA Document OCR」特化サービスを3月11日リリースした。

「CLOVA Document OCR」特化モデルは、CLOVA AI自然言語処理技術(NLP)で非定形文書を先行学習させた後、文字の位置、文書の様式と関係なく業務文書から商号、支店名、事業者番号のような主要な情報だけを抽出して項目別の分類まで自動で助ける商品である。

今回のリリースで、レシート、クレジットカード、事業者登録証、身分証明書、医療費支払い領収書等の発給機関が異なったり偽造・変造技術が適用されてOCR(光学文字認識)技術の適用が難しかった分野まで文書認識が可能になった。

レシート、医療費領収書、事業者登録証の場合は発給機関ごとで様式が異なって使用者が希望する情報を自動で抽出することが難しかった。
しかし、「CLOVA Document OCR」を通じて認識された文書から情報の連結関係を把握てきるので、テキストと数字値が意味することを正確に探し出せる。

これと共に、文字イメージを単純にテキストとして認識する水準を乗り越えて、もみくちゃになったり汚染された各種書類から抽出されたテキストをAI技術で項目別に自動記入することが可能になった。

名刺とクレジットカードのように様々な形態とデザインで作られる文書も早く認識出来る。
特に、韓国内の場合縦型と横型等で様々な形態になっているし、英文、漢字、記号等の色々の活字が印刷されている。

このように特定しにくい文書から正確に必要な値を抽出でき、当該技術はNaver Works社とRememberサービスでも活用されて高い性能と使用者満足度を示している。

その他に、住民登録証、運転免許証、パスポートなどの身分証明書は、光の反射が多く、すき入れや蛍光印刷などの偽造・変造防止技術が適用されていて難易度が高いが、優れた性能と速度でテキストの抽出が出来る。

特に、クレジットカードや住民登録証のような敏感情報と個人情報をOCRで認識した場合、徹底した保安が要求されるため、Document OCRは事前に申込手続きを経て、承認を受けた企業だけで選別的に使用出来る。安全な使用のための保安アーキテクチャーも別途案内する予定である。

Naver Cloud社のS.Y.Han常務は、“産業群にかかわらず自動化を通じて業務を簡素化するトレンドが続いて、OCRの活用分野が多角化されて、ビジネス現場の中核技術として位置づけしている。”と言って、“今後Document OCR特化モデルを持続的に拡張し、Naver Cloudプラットフォームの他のサービスと有機的に連携したソリューションをリリースして、Naver Cloudしか提供できない差別化したサービスで革新を先導していく“と述べた。

*本件についてお問い合わせ事項がございましら、当ホームページの「お申込み/お問い合わせ」か下記の連絡先へご連絡お願いします。
部署名:SEOIL E&M 企画マーケティンググループ
TEL :+82)2-6204-2033
E-mail : pl@seoilenm.com