NEWS

クアルコム社のAI基盤の圧縮技術、ビデオと音声の両方で驚くべき向上… 敵対的生成ネットワーク基盤の次世代コーデック

2021-07-15    hit . 60762


クアルコム社のGAN基盤コーデック(最上段)は、BGPコーデック(最下段)より視覚的にはるかに満足度高く歪曲が少ない結果をより高い圧縮率で提供する

クアルコム社のAIはEVS音声圧縮と同一な音声品質基準で2.6倍のビット伝送率圧縮を達成

2021.07.15 07:48

世の中はデジタル化している。 人工知能(AI)、モノのインターネット(IoT)、5Gなどのトレンドが高まり、
マルチメディアへの需要が増加することによって、効率的な通信のために圧縮が必要な膨大な量のデータが生成されている。

例えば、生成され消費されるビデオ及び音声データの規模は膨大である。
1日に計150億分の時間が、フェイスブック社が運営するインスタントメッセンジャーの一種であるワッツアップ(WhatsApp)通話に使われ、
シスコ(Cisco)社の年次インターネット報告書によると、22年までに全ての消費者インターネットトラフィックの82%がオンラインビデオになると予想している。

これを可能とするために、原始ファイルに比べ次世代ビデオ圧縮標準VVC(Versatile Video Coding)圧縮で、
ビデオファイルのサイズが約1000倍減少するなどの技術革新により、データ圧縮技術が数年で飛躍的に向上された。

しかし、より多くのデータに対する需要が短期間に止まらないため、圧縮技術の発展はいつもより重要である。
それでクアルコム社は新しいビデオおよび音声に対する最新人工知能(AI)基盤圧縮研究のうち一部を公式ブログを通じて7月14日(現地時間)発表した。

●圧縮に人工知能が必要な理由

クアルコム社はレーベルが指定されていない訓練データを持ってきて同じ分布から新しいサンプルを生成する強力なAI技術である
教師なし学習に対する深層生成モデルの研究を行った。

この技術を通じて多くの使用事例に広範囲に適用できるが、モデル自体が入力データの低次元機能表現を抽出·学習するため、
圧縮及び圧縮復元応用プログラムに使用でき、AI基盤圧縮が従来のコーデックに比べて多くの長所を持っていることを確認したという。

例えば、AI基盤の圧縮はより良い歪率トレードオフを提供することができる。
即ち、ビデオの場合、より少ないビットで同じレベルの視覚的品質を提供できるのである。
ここで、究極的な目標はデータをできる限り縮小しながら元の状態に再びデコードできるようにすることであるため、コーデックを評価する中核メトリックである。

もう一つの利点は、最も最新の学習モデルが比較的短い時間に学習され、配布のためのAI加速以外の特殊目的ハードウェアが不要であるため、
新しいAIコーデックをアップグレード、標準化および配布することがより容易であることである。
また、ポイントクラウド、全方向ビデオ及び多重カメラ設定のような新しい方式の場合、ニューラルコーデックをより容易に開発することができる。

●音声のための最新人工知能圧縮研究

クアルコム社は最先端の音声圧縮を達成するために、深層生成モデルを適用した。
研究では、従来のコーデックより低いビット伝送率を達成するために、終端間の音声圧縮のためにフィードバック循環変形自動エンコーダを使用した。
結果はAIソリューションを使用して既に音声をかなり圧縮しているEVS音声コーデックに比べて、ビット伝送率が2.6倍向上したというものである。


●ビデオに対する最新の人工知能圧縮研究結果

クアルコム社は、最先端ビデオ圧縮を達成するためにも深層生成モデルを適用した。
ビデオの近いスチールイメージフレームで発見される、相当の量の空間的および時間的重複性を圧縮しようと試みる人間が設計したアルゴリズムを使うよりは、
End to Endディープ·ラーニングを使ったイメージとビデオに対するAI圧縮で下記のようにいくつかの発展を遂げた。

●ニューラルBフレームコーディング(Neural B-frame coding)

B-フレームまたは双方向フレームは、以前および次のフレームを基にビデオの変更事項をコーディングする。
これはより複雑な計算と調整を必要とするが、圧縮速度を向上させる。従来のAI研究方法はB-フレームコーデックを具現する際に欠陥があったが、
クアルコム社の新しいソリューションはコーデックが加重値を共有し、より効率的で最先端の速度歪曲結果を提供できるようにする。

●インスタンス適応型ビデオ圧縮による典型的な過剰適合 (オーバーフィッティング、Overfitting)

ビデオで見られると予想されるイメージのタイプが非常に狭いシナリオがあるため、AIコーデックを過適合して、
より圧縮されたエンコードビットストリームを提供できる。 はるかに低いビット伝送率でもストリーミングできる
人気のあるネフリックス(Netflix)シリーズ用ニューラルコーデックの利点がある。

クアルコム社の研究はグーグルの先導的なニューラルコーデックに比べて、BD比率が24%も削減されるなど、最先端の結果を達成したという。
ここで重要なことは、SOTA結果をそのまま維持しながらデコード複雑性を72%まで減らすことができるため、
モバイルにやさしいソリューションであるとのことである。

●可変ビットレートイメージ圧縮

ハードウェア又はネットワーク条件の制限により、ビデオ及びイメージは、時々様々なビットレートでエンコードされる。
可変ビットレートイメージ圧縮は、より簡単な配布を提供する。

可変ビットレートを達成するための様々なソリューションがあるが、究極的には全てのビットレートを内蔵する単一ビットストリームを生成するための
単一モデルを望む。 可変ビット率進行性ニューラル映像圧縮ソリューションはHEVC (H.265MPEG-4 AVC-Advanced Video Coding)と
類似した性能を達成するが、単一モデルと単一ビットストリームのみ使用する。

●意味認識イメージ圧縮(Semantic-aware image compression)

イメージに関心のある領域の場合,クアルコム社は視覚的品質を高めるためにさらに多くのビットを割り当てた。
意味認識イメージ圧縮は正確にそうすることでイメージ品質を向上させる。
この解決策でイメージに対する速度歪曲過剰適合に対する最先端結果を提供し、次の段階ではこの技術をビデオに拡張した。

●敵対的生成ネットワーク(Generative Adversarial Network. GAN)基盤コーデック

クアルコム社は、良いイメージコーデックを作るために、イメージの歪曲を減らし、知覚品質を高めると同時に、最も低いビット伝送率を最適化した。
これは時々多くの折衷をもたらすが、GANは情報がほとんどない時でも視覚的に魅力的なものが過剰適合につながるため、
GANは伝統的なコーデックに比べてより優れた品質のイメージを生成することができた。


※本件についてお問い合わせ事項がございましら、当ホームページの「お申込み/お問い合わせ」又は下記の連絡先へご連絡お願い致します。
部署名:SEOIL E&M 企画マーケティンググループ
TEL :+82)2-6204-2033
E-mail : pl@seoilenm.com