リンク一覧
抽象的な
アルファマットは、ビデオ会議だけでなく、映画、テレビ、ソーシャル メディア サイトでも広く使用されています。マット抽出問題に対するディープラーニング アプローチは、一貫した主題 (正面を向いた人間) のためビデオ会議に適していますが、トレーニング ベースのアプローチは、さまざまな主題 (宇宙船、モンスターなど) が 1 つの映画に数回しか登場しないエンターテイメント ビデオにはやや無意味です。トレーニング用のグラウンド トゥルースを作成する方法が存在する場合は、その方法を使用して目的のマットを作成してください。ここでは、視覚効果制作の前提に特に重点を置いた、トレーニング不要の高品質ニューラル マット抽出アプローチを紹介します。このアプローチは、ディープ イメージ プライアに基づいています。ディープ ニューラル ネットワークを 1 つの画像に合うように最適化することで、特定の画像のディープ エンコーディングを提供します。最後から 2 番目のレイヤーの表現を使用して、粗く不完全な「トライマップ」制約を補間します。このアプローチで処理されたビデオは、時間的に一貫しています。このアルゴリズムは非常にシンプルでありながら、驚くほど効果的です。
CCSコンセプト
• コンピューティング方法論 → 画像処理。 • 応用コンピューティング → メディアアート。
キーワード
アルファマット、ディープラーニング、視覚効果。
ACMリファレンスフォーマット:
Sharif Elcott、JP Lewis、Nori Kanazawa、Christoph Bregler。2022. TrainingFree Neural Matte Extraction for Visual Effects。SIGGRAPH Asia 2022 Technical Communications (SA ’22 Technical Communications)、2022 年 12 月 6 ~ 9 日、大韓民国大邱。ACM、米国ニューヨーク州ニューヨーク、5 ページ。https://doi.org/10.1145/3550340.3564230
1 はじめに
アルファマット抽出とは、前景オブジェクトの未知の半透明度または被覆率 𝛼 を見つける制約の少ない逆問題を指します (Wang and Cohen 2007)。マット抽出は、ビデオ会議の代替背景の提供や、映画、テレビ、ソーシャルメディアの視覚効果 (VFX) の作成に広く使用されています。ただし、研究文献では、これら 2 つのアプリケーションの要件が大きく異なることが必ずしも認識されているわけではありません。この論文では、VFX の前提と要件に特化したニューラルマット抽出法を紹介します。
VFX の前提と要件に特に対処します。ビデオ通話のマッティングでは、リアルタイムのパフォーマンスが求められ、正面を向いた人間という単一の主題クラスが想定されます。これは、「一度トレーニングして何度も使用する」状況であり、トレーニング データを取得することが可能であり、有利です。ビデオ通話のマッティングでは、固定カメラが想定されることが多く、参加者がいない部屋の「クリーン プレート」画像が必要になる場合があります。一方、VFX 制作には、次の前提と要件があります。
• 多様で、多くの場合、珍しい(「一回限りの」)主題。たとえば、YouTube 動画(ゴジラ vs. キャット 2021)(3,000 万回再生)には、猫、船、残骸のマットが含まれています。墜落したエイリアンの宇宙船などの物理的な小道具は、1 本の映画で数秒間しか使用されず、二度と見られない可能性があります。したがって、ディープラーニング用のグラウンドトゥルースのトレーニング データセットを収集することは、多くの場合無意味です。トレーニング用のグラウンドトゥルースのマットを生成する方法がある場合は、この方法を使用して目的のマットを生成するだけで済みます。モデルをトレーニングする必要はありません。
• 視覚効果には、カメラの移動や、非常に多様な背景の移動が頻繁に伴います。たとえば、俳優が地球上のどこかで走ったり乗り物に乗って移動したりする様子を撮影したり、近くの背景に地球外の小道具があるセットで撮影したりすることがあります。したがって、繰り返し登場する主題 (人間) が主なケースであっても、代表的なトレーニング データセットを収集することは、ビデオ通話の場合よりも困難です。
• リアルタイムのパフォーマンスは不要です。その代わり、俳優 (時には 7 桁の給料) と映画スタッフの費用を合わせると、現場での撮影時間は最小限に抑えられます。現場で (俳優とスタッフが待機している間に) 問題に対処するよりも、アーティストを雇って数日間働いてもらい、「後で修正する」方が安上がりな場合がよくあります。
• クリーンプレートはマット処理には適した方法ではなく、不可能な場合も多々あります。カメラが動いている場合、クリーンプレートを取得するにはモーション コントロール リグが必要です。クリーンプレート用のモーション コントロールを屋内で使用すると、前述の原則 (オンセット時間の最小化) によりコストがかかります。さらに、この方法は、背景の動き (風で動く植物など) や照明の変化 (移動する雲が太陽を遮る) などの理由から、屋外では一般的に実行できません。
私たちのソリューションは、ディープ イメージ プライア (Ulyanov ら、2018 年) を採用したマット抽出アプローチであり、これらの要件に対応しています。このソリューションには、次の特性と貢献があります。
• これは、ビデオ会議ではなく VFX の要件を対象としたディープ ニューラル ネットワーク マット抽出方法です。当社が知る限り、これはマット処理 (クリーン プレートやグリーン スクリーンなど) をサポートするためのトレーニング データや高価なオンセット画像キャプチャを必要としない初のディープ ニューラル マット抽出方法です。
• 既存の半自動ツールを使用してポストプロダクション中に簡単に作成できる粗い「トライマップ」(図 1)とともに、指定された画像またはビデオのみに依存します。通常は Nuke や After Effects などのプロフェッショナル ソフトウェアが使用されますが、よく知られている例としては、Photoshop (Adobe 2018) の「被写体を選択」ツールがあり、その後に膨張/収縮が行われ、「アクション」で自動化されます。
• クリーンプレートを必要としないため、屋外映像からの抽出が可能です。
• グリーンスクリーンを必要とせず、前景と背景の被写体の色が似ている場合でも(図 1 の緑色の髪)、詳細で高品質のマットを作成できます。
