NEWS

人工知能の開発及び産業発展の加速化! AI学習用データ170種、4億8千万件を電撃的に開放

2021-06-21    hit . 60372


2021.06.18 11:24

韓国科学技術情報通信部と韓国知能情報社会振興院は韓国の人工知能技術及び産業発展の促進剤となる
人工知能学習用データ170種(4億8千万件)を人工知能ハブ(AI HUB)を通じて18日から電撃的に開放する。

また、科学技術情報通信部は人工知能学習用データの活用促進と成果の拡散などのために
6月18日午前10時LGサイエンスパークで「人工知能(AI)データ活用協議会」の発足式を行い、意見収集のための懇談会を開催した。

科学技術情報通信部は2017年から企業、研究者、個人などが時間と費用の問題で個別に構築しにくい
人工知能学習用データを構築·開放しており、2020年からはデジタルニューディール「データダム」の
構築プロジェクトの一環として構築規模を大幅に拡大して推進している。

これまで(2017~2019年)21種の人工知能学習用データを構築·開放しAIハブの利用者とのデータ活用が急速に増加しており、
開放データを活用した人工知能サービスの開発·性能向上などの成果も現れている。

今回公開される人工知能学習用データ(170種)は2020年に構築して、
今回公開される8大分野170種の人工知能学習用データは、データ企画から構築まで産業界、専門家だけでなく、
多くの国民が参加した結果物であるため、より意義深いものである。

詳細内訳としては音声·自然言語(韓国語の方言など39種)、ヘルスケア(がん診断映像など32種)、
自動運転(道路走行映像など21種)、ビジョン(スポーツ動作映像など15種)、国土環境(山林樹種イメージなど12種)、
農畜水産(家畜の行動映像など14種)、安全(老朽化した施設のイメージなど19種)、
その他(ファッション商品イメージなど18種)などである。

まず、民間の広範囲な需要を基に、分野別の産・学・研の専門家、主要活用企業などが直接参画し、
産業波及効果が大きいが民間で大規模に構築することが困難な人工知能学習用データ
(韓国語音声データ、国内道路走行映像データ、主要がん疾患映像データなど)を企画した。

データの構築には韓国の主要人工知能·データ専門企業は勿論、主要大学(ソウル大学、KAISTなど48校)、
病院(ソウル大学病院、牙山病院など25ヶ所)など、計674社の企業·機関が参加した。
特にデータ収集·加工などの構築過程に、キャリア断絶の女性、就活青年などの国民誰でも参加できる
クラウドソーシング方式を導入し、約4万人という多くの国民の参加を引き出した。

今回AIHUBに大規模で開放される人工知能学習用データの品質と活用性を検証し管理する過程でも
分野別の専門家と専門機関、活用企業などが力を合わせた。

昨年9月から8分野別の産・学・研の専門家80人余りが参加する「品質諮問委」を運営し、
専門的な品質管理のサポートシステムを構築しており、
主要大手企業(ネイバー社、LG社、サムスン電子社、KT社、ヒュンダイ自動車社など)、
スタートアップ企業(Deepnoid(ディープノイド)社、StradVision(ストラードビジョン)社、Vivans(ビバエヌエス)社など)、
大学および研究機関(KAIST、GIST、ETRI、農林水産食品教育文化情報院など)など約20社の企業·機関が参加して
データを開放の前に、活用性の検討を進めて(5~6月)、実際の需要者が要求するデータの品質を確保しようとした。

科学技術情報通信部と知能情報院(NIA)はデータ開放の後も利用者参加型の集中改善期間の運営(-9月)などを通じて、
利用者の要求事項を積極的に反映するなど、官民の協力を基盤でデータを持続的に改善していく計画である。

また、今回人工知能(AI)ハブに開放される人工知能学習用データは、コストや人材確保などの問題で
データを直接構築することが困難な中小企業やスタートアップ企業だけでなく、
大手企業としても自社で確保しにくい大規模のデータを提供するという点で、これまで韓国の人工知能(AI)産業界で
最大のボトルネックとして指摘されてきた「データの渇き」をある程度解消出来ると見込まれている。

これまで韓国の人工知能企業は人工知能の開発に必要なデータを確保するために海外のオープンデータを多く活用してきた。
しかし、韓国語、国内道路環境など、国内の現状が反映できてないオープンデータは、
国内の人工知能(AI)サービスの開発に活用しづらい問題があった。

今回は地域別の方言を含む韓国語、国内の主要道路や国内患者の医療映像データなど「韓国型人工知能学習用データ」が
大幅に拡充され、国民が体感できる人工知能(AI)サービスの開発が加速化出来ると期待される。

代表的に、今年6月30日に公開を控えている韓国語の方言(慶尚道·全羅道·忠清道·江原道·済州道)の発話データは、
標準語に比べ方言をよく認識出来なかった音声基盤人工知能サービス(AI)の問題点の相当部分を解決できると見込まれる。

特に、データ開放前の活用性を検討した結果、「自然な方言が収集される」、
「既存サービスの認識率が12%向上される」などの、高い評価を得ている。

また、6月18日から30日まで順次公開される自動運転データ(21種)は韓国内の道路走行映像だけでなく、
駐車障害物・移動体の認知映像、バス路線走行映像などの多彩なデータを提供し、
自動運転車開発を一層繰り上げることが期待されている。 特に活用性検討の結果、
「特殊車線、障害物、ポットホールなど様々なオブジェクトが含まれている」点は代表的な長所として挙げられる。

これまで科学技術情報通信部と知能情報院(NIA)は、品質管理の専門機関である韓国情報通信技術協会(TTA)及び
専門企業などと協力して、高品質のデータを安全に活用できるようデータの品質管理レベルを大幅に強化してきており、
今後、個人情報保護委員会と個人情報専門機関である韓国インターネット振興院(KISA)などとも
持続的に協力を強化していく計画である。

TTAは専門家および活用企業の意見を収集して品質基準を確立し、これを適用して全般的なデータ品質を検証した。
知能情報院(NIA)は人工知能データを安心して使える活用環境を整えるために、イメージと映像データの場合
事前に個人情報の同意を得て構築する一方、個人情報などが含まれないように
韓国語テキストデータなどはシナリオを基盤に創作した再現データで構築した。

また、人工知能学習用データ活用の活性化方案として、人工知能(AI)データ活用協議会を発足した。

科学技術情報通信部は18日、人工知能学習用データの大規模な公開とともに、データ活用の促進と
成果の拡散などのため「人工知能(AI)データ活用協議会」の発足式を行い、現場懇談会を開催して
データを実際に活用する企業·機関の意見を聴取した。

「人工知能(AI)データ活用協議会」はデータ絵品質管理の専門機関であるTTAと、
今回の170種データの活用性検討に参加した企業·機関を中心に構成され、
人工知能(AI)ハブデータを積極的に活用し成果を共有·拡散する一方、データ品質向上と持続的改善に協力していく予定である。

知能情報院(NIA)は今後、参加を希望する企業と機関を中心に協議会を持続的に拡大していく計画である。
又、大規模の人工知能学習用データの本格的な開放に合わせて、人工知能(AI)ハブの活用環境を大幅に改善する。

一度の本人認証だけで、データに対するアクセス·活用ができるよう会員登録システムを改善し、
直観的なデータ探索のためにUI/UXも改善した。 今年下半期にはデータ検索体系を
課題名中心から自動車、表示板など事物·オブジェクト中心に改編する計画である。

また、人工知能学習用データを活用したアルゴリズムの高度化等を支援するために、データ活用コンテストも推進する計画である。
併せて、ヘルスケアデータの活用の活性化のために、クローズド安心ゾーンの拡大及び
クラウド基盤の開放型安心ゾーンの構築も推進する。

今回の公開はデータの提供とともに、ユーザーとともにより良いデータ提供のための改善点を模索するために、
9月末まで3ヶ月間の参加型データ集中改善期間を運営する。

データの開放とともに、人工知能(AI)ハブにデータ改善意見を収集するためのオンライン窓口を運営し、
専門機関(TTA、KISA等)と協力してデータの品質など利用者の意見に迅速に対応するためのTFを運営する。

科学技術情報通信部のH.S.LIM長官は「人工知能(AI)データ活用協議会」の発足式に出席した企業や機関を激励して、
「ダムの水が大地の所々に浸透して花を咲かせるように、今回公開されるデータが
産業の所々で広く活用されて革新の実を結ぶことを期待する」と述べた。

続いてLIM長官は「政府も高品質の人工知能学習用データを持続的に提供し、
誰もがデータを容易く活用して成果を共有できる環境を造成することに支援を惜しまない」と強調した。

*本件についてお問い合わせ事項がございましら、当ホームページの「お申込み/お問い合わせ」か下記の連絡先へご連絡お願いします。
部署名:SEOIL E&M 企画マーケティンググループ
TEL :+82)2-6204-2033
E-mail : pl@seoilenm.com