NEWS

[AIレビュー] Facebook AI、多国語音声AI開発のための「8種言語、5万時間オーディオセット」をオープンソースで公開

2021-02-08    hit . 61450


2021.02.06 11:30

今回MLSが制限的ではないライセンスと共に、大規模多国語データセットを提供し、共通ベンチマークを設定することで、多国語ASRで開放的で協力的な研究を促進、全世界のより多くの言語で音声認識システムを改善すると信じている。

Facebook AIが自動音声認識(Automatic Speech Recognition. 以下、ASR)の研究の先進化のために設計された大規模のデータセットである多国語リブリスピーチ(LibriSpeech. 以下、MLS)をオープンソースで最近公開した。
MLSは音声研究コミュニティーが単純に英語を乗り越えて、言語で作業出来るように設計されていて、広範囲のAI基盤サービスを改善することで全世界の人達が恵沢を受けることが出来る。

コーパス(Corpus)MLSは8種の言語で50,000時間以上のオーディオセットを提供する。
現状提供される言語は英語、ドイツ語、オランダ語、フランス語、スペイン語、イタリア語、ポルトガル語及びポーランド語である。又、研究者たちがお互いに異なるASRシステムを比較するのに役立つ基準線と共に、言語モデルの訓練データと、事前学習された言語モデルも提供する。
この製品は共用ドメインのオーディオブックを活用する。

特にMLSは、様々なスピーカーをもっつ大規模のデータセットを提供して、制限的ではないライセンスで誰でも上市できる。

MLSは活用される読みデータセットで、ASRベンチマークを通じてより大きい規模に作って、
英語専用から上述した7種の他の言語に拡張した。これの具現のために、オーディオセグメントに最も適合なスクリプトを検索するためにオーディオを分割してオーディオブックのテキストと整列した。オーディオブックが長い場合もあるため、Facebook AIのオープンソース「 wave2letter@nywhere」を使用した。

殆どの既存オンライン音声認識ソリューションは、繰返しの神経網(RNN)のみを支援する。
wav2letter@awhereの場合は、Facebook AIはその代わりに完全にコンボリューション音響モデルを使うが、これはLibriSpeechで特定の推論モデルと最先端性能に対して3倍の処理量を向上する。

又、システムが生産規模(低電力の環境でサーバーCPU又はOn-Debiceで)で実行されるためにも波、システムが計算的に効率的であるかを確認する必要がある。
研究環境で低い潜伏性でASRシステムを取ることは、かなり正確な計算効率的なシステムで、具現とアルゴリズムに対するわずかな変更を含む。

即ち、wav2letter@Anywhereフレームワークを使用して、ストリーミング推論と整列を遂行したことである。

制限的・監督的ではないASRのベンチマーク Libri-Lightの成功から霊感を得て、含まれた全ての言語に対して制限されたレベルデータ(10分、1時間、10時間)をもっつサブセットを提供する。これは自体監督及び半監督の設定のように、ラベリングされた少量のデータを使用出来る学習に適合である。

言語モデリングのデータを準備するために、Facebook AIはプロジェクトグーテンベルク(Project Gutenberg)デジタルライブラリーの公共ドメインを活用した。
そして、開発とテストセットと重なるライブラリーを慎重にフィルタリングし、言語別テキストの正規化を行って、言語モデルのコーパスを生成した。

又、基本の音響モデルを学習し、各言語に対して5-グラム言語モデルを使用してデコーディングした。
LibriSpeechの標準ノイズテストセットと比べて、MLSの英語下位集合に対する訓練モデルを評価するうちに、LibriSpeechデータを使用して学習した同一なモデルに比べて、言葉の誤り率が20%向上された。

公開されたデータセットとベンチマークは最近AIが発展した主要原動力で、MLSはASRシステムの大規模教育に対する研究のための貴重な資源を提供する。
英語データセットは LibriSpeechにある教育データよりも約47倍大きい。

英語ではない言語に対するデータセットとベンチマークがあるが、相対的に小さかったり、様々な場所に散らばれていて、開放的で許容可能なライセンスではほとんどが使用できない。

Facebook AIは、今回のMLSが制限的ではないライセンスと共に、大規模の多国語データセットを提供し、共通ベンチマークを設定することで、 多国語ASRで開放的で協力的な研究を促進、全世界のより多くの言語で音声認識システムを改善すると信じていると述べた。

MLSはOpenSLRで使用出来るし、多国語データセット(LibriSpeech. MLS)はダウンロードが出来て、全ての事前訓練されたモデルと、モデルを学習して評価するためのレシピはギットハブを通じてダウンロード出来る。
より詳しい内容は関連研究論文の「MLS : 音声研究のための大規模データセットの研究(MLS: A Large-Scale Multilingual Dataset for Speech Research)」を参考すればよい。

*本件についてお問い合わせ事項がございましら、当ホームページの「お申込み/お問い合わせ」か下記の連絡先へご連絡お願いします。
部署名:SEOIL E&M 企画マーケティンググループ
TEL :+82)2-6204-2033
E-mail : pl@seoilenm.com