視覚効果のためのトレーニング不要のニューラルマット抽出: 概要と概要

Posted on 7月 7, 2024

リンク一覧

抽象的な

アルファマットは、ビデオ会議だけでなく、映画、テレビ、ソーシャルメディアサイトでも広く使用されています。マット抽出問題に対するディープラーニングアプローチは、一貫した主題 (正面を向いた人間) のためビデオ会議に適していますが、トレーニングベースのアプローチは、さまざまな主題 (宇宙船、モンスターなど) が 1 つの映画に数回しか登場しないエンターテイメントビデオにはやや無意味です。トレーニング用のグラウンドトゥルースを作成する方法が存在する場合は、その方法を使用して目的のマットを作成してください。ここでは、視覚効果制作の前提に特に重点を置いた、トレーニング不要の高品質ニューラルマット抽出アプローチを紹介します。このアプローチは、ディープイメージプライアに基づいています。ディープニューラルネットワークを 1 つの画像に合うように最適化することで、特定の画像のディープエンコーディングを提供します。最後から 2 番目のレイヤーの表現を使用して、粗く不完全な「トライマップ」制約を補間します。このアプローチで処理されたビデオは、時間的に一貫しています。このアルゴリズムは非常にシンプルでありながら、驚くほど効果的です。

CCSコンセプト

• コンピューティング方法論 → 画像処理。 • 応用コンピューティング → メディアアート。

キーワード

アルファマット、ディープラーニング、視覚効果。

ACMリファレンスフォーマット:

Sharif Elcott、JP Lewis、Nori Kanazawa、Christoph Bregler。2022. TrainingFree Neural Matte Extraction for Visual Effects。SIGGRAPH Asia 2022 Technical Communications (SA ’22 Technical Communications)、2022 年 12 月 6 ～ 9 日、大韓民国大邱。ACM、米国ニューヨーク州ニューヨーク、5 ページ。https://doi.org/10.1145/3550340.3564230

1 はじめに

アルファマット抽出とは、前景オブジェクトの未知の半透明度または被覆率 𝛼 を見つける制約の少ない逆問題を指します (Wang and Cohen 2007)。マット抽出は、ビデオ会議の代替背景の提供や、映画、テレビ、ソーシャルメディアの視覚効果 (VFX) の作成に広く使用されています。ただし、研究文献では、これら 2 つのアプリケーションの要件が大きく異なることが必ずしも認識されているわけではありません。この論文では、VFX の前提と要件に特化したニューラルマット抽出法を紹介します。

VFX の前提と要件に特に対処します。ビデオ通話のマッティングでは、リアルタイムのパフォーマンスが求められ、正面を向いた人間という単一の主題クラスが想定されます。これは、「一度トレーニングして何度も使用する」状況であり、トレーニングデータを取得することが可能であり、有利です。ビデオ通話のマッティングでは、固定カメラが想定されることが多く、参加者がいない部屋の「クリーンプレート」画像が必要になる場合があります。一方、VFX 制作には、次の前提と要件があります。

• 多様で、多くの場合、珍しい（「一回限りの」）主題。たとえば、YouTube 動画（ゴジラ vs. キャット 2021）（3,000 万回再生）には、猫、船、残骸のマットが含まれています。墜落したエイリアンの宇宙船などの物理的な小道具は、1 本の映画で数秒間しか使用されず、二度と見られない可能性があります。したがって、ディープラーニング用のグラウンドトゥルースのトレーニングデータセットを収集することは、多くの場合無意味です。トレーニング用のグラウンドトゥルースのマットを生成する方法がある場合は、この方法を使用して目的のマットを生成するだけで済みます。モデルをトレーニングする必要はありません。

• 視覚効果には、カメラの移動や、非常に多様な背景の移動が頻繁に伴います。たとえば、俳優が地球上のどこかで走ったり乗り物に乗って移動したりする様子を撮影したり、近くの背景に地球外の小道具があるセットで撮影したりすることがあります。したがって、繰り返し登場する主題 (人間) が主なケースであっても、代表的なトレーニングデータセットを収集することは、ビデオ通話の場合よりも困難です。

• リアルタイムのパフォーマンスは不要です。その代わり、俳優 (時には 7 桁の給料) と映画スタッフの費用を合わせると、現場での撮影時間は最小限に抑えられます。現場で (俳優とスタッフが待機している間に) 問題に対処するよりも、アーティストを雇って数日間働いてもらい、「後で修正する」方が安上がりな場合がよくあります。

• クリーンプレートはマット処理には適した方法ではなく、不可能な場合も多々あります。カメラが動いている場合、クリーンプレートを取得するにはモーションコントロールリグが必要です。クリーンプレート用のモーションコントロールを屋内で使用すると、前述の原則 (オンセット時間の最小化) によりコストがかかります。さらに、この方法は、背景の動き (風で動く植物など) や照明の変化 (移動する雲が太陽を遮る) などの理由から、屋外では一般的に実行できません。

私たちのソリューションは、ディープイメージプライア (Ulyanov ら、2018 年) を採用したマット抽出アプローチであり、これらの要件に対応しています。このソリューションには、次の特性と貢献があります。

• これは、ビデオ会議ではなく VFX の要件を対象としたディープニューラルネットワークマット抽出方法です。当社が知る限り、これはマット処理 (クリーンプレートやグリーンスクリーンなど) をサポートするためのトレーニングデータや高価なオンセット画像キャプチャを必要としない初のディープニューラルマット抽出方法です。

• 既存の半自動ツールを使用してポストプロダクション中に簡単に作成できる粗い「トライマップ」（図 1）とともに、指定された画像またはビデオのみに依存します。通常は Nuke や After Effects などのプロフェッショナルソフトウェアが使用されますが、よく知られている例としては、Photoshop (Adobe 2018) の「被写体を選択」ツールがあり、その後に膨張/収縮が行われ、「アクション」で自動化されます。

• クリーンプレートを必要としないため、屋外映像からの抽出が可能です。

• グリーンスクリーンを必要とせず、前景と背景の被写体の色が似ている場合でも（図 1 の緑色の髪）、詳細で高品質のマットを作成できます。

前の投稿

視覚効果のためのトレーニング不要のニューラルマット抽出: 限界と結論

次の投稿

視覚効果のためのトレーニング不要のニューラルマット抽出: 方法

視覚効果のためのトレーニング不要のニューラルマット抽出: 概要と概要

リンク一覧

抽象的な

CCSコンセプト

キーワード

ACMリファレンスフォーマット:

1 はじめに

関連記事

関連記事

世界で最も痛いハチ刺されを発見

サムスン、オープン RAN 開発を加速

米国で最も危険な空港ランキング

Windows 11/10ではSnippingツールが見つからない

この夜の夢

ラブブラシクロニクル – 2024年6月のコードリスト

運命を予測するために足の裏のほくろを見てください

WordPressブロック間のスペースを追加または削除する方法（4つの方法）

Appleのチップはテーブルの上にあります

5月のイエローストーンの天気：何を期待するか

長い間あなたを待っているので、孤独は深すぎるので、私は先に進むために強くなければなりません…

10の信じられないほどのアデリーペンギンの事実

メニュー

メニュー