NEWS

人工知能のコード理解と翻訳のための大規模のデータセット…「プロジェクトコードネット」をオープンソースとして公開

2021-05-14    hit . 17


IBM研究所は人工知能(AI)のコード理解と翻訳を可能とするために、1400万個のコードサンプル、5億行のコードおよび55個のプログラミング言語で構成された大規模データセットである「プロジェクトコードネット(Project CodeNet)」を、オープンソースとして5月11日(現地時間)公開した。

このプロジェクトコードネットは、現在同級最大規模の最も差別化されたデータセットで、今日日のコーディングでコード検索(COBOLのような既存言語を含めて、一つのコードを他のコードに自動変換)、コードの類似性(相異のコード中、重複及び類似性を識別)、コード制約(開発者の特定な要求と媒介変数に基づいた使用者指定の制約条件)の3つの主要使用事例を扱う。

一方、プロジェクトコードネットは、GitHubを通じて誰でもダウンロードして使用が出来、このソース対ソースの変換及び既存のコードベースを現代コード言語に転換するための貴重なベンチマークデータセットの役割をすると予想され、企業がAIを迅速に適用出来るように支援する。

*本件についてお問い合わせ事項がございましら、当ホームページの「お申込み/お問い合わせ」か下記の連絡先へご連絡お願いします。
部署名:SEOIL E&M 企画マーケティンググループ
TEL :+82)2-6204-2033
E-mail : pl@seoilenm.com