視覚効果のためのトレーニング不要のニューラルマット抽出: 背景と関連作業

in Vlog

アルファ合成方程式は

ここで、𝑖 ∈ {𝑟, 𝑔, 𝑏}, 𝐼𝑖 は、指定された画像 (指定) のピクセルにおける赤、緑、青の値、𝐹𝑖 は前景オブジェクトの色 (不明)、𝐵𝑖 は背景オブジェクトの色 (不明)、𝛼 ∈ (0, 1) は (部分的に不明な)「アルファ マット」であり、ピクセルにおける前景オブジェクトの半透明または部分的な覆いを表します。

一般的な画像には、比較的簡単に単色の「前景」(𝛼 = 1)または「背景」(𝛼 = 0)であると推定できる大きな領域と、アルファ値が小数である小さな領域が含まれています。マット抽出の問題では、これらの小数アルファ値を見つける必要があります。既知の値は 𝐼𝑟、𝐼𝑔、𝐼𝑏 の 3 つしかなく、未知の値が 7 つあるため、この問題は制約が不十分です。髪の毛は、不規則な覆いと半透明性のため、マット抽出の典型的な課題ですが、小数アルファは、前景オブジェクトによってピクセルが部分的に覆われるため、すべてのオブジェクトのエッジに沿って一般的に現れます。また、小数アルファ領域で未知の前景色を推定することも必要です。これがなければ、前景を別の背景に合成できないためです。 多くの方法では、たとえばアーティストが提供する「トリマップ」(Rhemann et al. 2009)や落書き(Levin et al. 2008)の形式で、単色の前景と背景のおおよその境界が提供されていることを前提としています。

研究文献では一般的に、任意の自然背景からのマット抽出の問題が検討されていますが、業界の実践では、グリーンスクリーンの背景からのマット抽出は解決済みの問題からは程遠く、必要な品質を得るためにアーティストがキュレーションした技術の組み合わせが必要になることがよくあります (Erofeev et al. 2015、Heitman 2020)。 LED ウォールは、場合によってはグリーンスクリーンの必要性を排除し、ペースの速いテレビ番組制作に適していますが、欠点もあります。ゲーム エンジンでリアルタイム再生する必要があるため、計算コストの高い物理シミュレーションやキャラクター シミュレーションは不可能です。明るい背景は、前景の物理オブジェクトに困難な光漏れを引き起こす可能性があります (Seymour 2020)。小規模スタジオではコストが高すぎるため、効果は主要撮影時に完成させる必要があり、従来のポスト プロダクションで利用できるクリエイティブな制御と反復的な改善が排除されます。

マット抽出アルゴリズムの進歩は、グラウンド トゥルース (GT) マットを含むデータセットによって大きく促進されました (Erofeev ら 2015 年、Rhemann ら 2009 年)。GT マットは、グリーン スクリーンからのクロマ キーイングや、モニターの背景画像の前で代表的なおもちゃのオブジェクトの撮影など、さまざまな方法で取得されています (図 1 (a))。これらの GT マットを厳密に近似できない場合はアルゴリズムが不十分であることを示しますが、いくつかの理由により、正確な一致が得られない可能性があります。1) クロマ キー自体に不完全なアルゴリズムが関係している (Erofeev ら 2015 年)、2) 複数の場所からの光が (たとえば) 半透明の髪の毛を物理的に散乱して 1 つのピクセルに到達する可能性がある。これは、純粋な 2D マット抽出プロセスではシミュレートできない、3) ベンチマークで使用される画像のガンマまたは色空間は常に明らかであるとは限らず、異なるガンマを使用するとわずかな違いが生じる。

マット抽出の制約不足の性質には、さまざまな方法でアプローチされてきました (Wang and Cohen 2007)。 1 つの古典的なアプローチは、ソリッド領域内の既知の前景色と背景色の分布との類似性に基づいて、ピクセルの未知のアルファを推定します (He et al. 2011; Mishima 1992)。 もう 1 つの有名な原理は、周囲の既知の値から伝播することによって未知のアルファ値を見つけることです (Aksoy et al. 2018; Levin et al. 2008)。 これらのアプローチでは、未知の領域内のピクセルの類似性から形成された一般化ラプラシアンを含むシステムを解く必要があることが多く、リアルタイムまたはインタラクティブな使用が妨げられます。

ディープラーニング(DL)アプローチは、最近の研究で使用されています(例:Lin et al. 2020、Sun et al. 2021)。この研究の多くは、ビデオ会議用の代替背景を提供することに焦点を当てており、トレーニングデータベースは主に前を向いた人間の頭で構成されています。最先端の方法(Lin et al. 2020)は、60fpsでHD解像度の画像から高品質のマット抽出を実証しています。多くのDL方法では、全体的なセグメンテーションと部分的なアルファ領域用の別々のネットワーク、またはその他のハイブリッドアプローチなど、複数の手法を組み合わせて採用しています。

2.1 深層画像事前分布

ディープ イメージ プライア (DIP) (Ulyanov 他 2018) は、トレーニングされていない畳み込みネットワークのアーキテクチャが、イメージ修復やノイズ除去などのタスクに対して驚くほど優れた事前条件を提供することを示しています。重要な観察結果は、強力な DNN はノイズなどの任意のイメージ構造に適合できますが、損失曲線の減衰が速いことからわかるように、自然なイメージ構造に適合させる方が「簡単」であるということです。ほとんどの実験 (Ulyanov 他 2018) は、固定ランダム ノイズを単一の出力イメージにマッピングする U-net (Ronneberger 他 2015) の重みを最適化します。イメージの破損していない特徴は最適化プロセスの早い段階で適合されるため、早期に停止すると、修正された (ノイズ除去または修復された) 画像になります。

DIP は、画像処理の他の問題にもうまく適用されています。教師なしの粗いバイナリセグメンテーションは、(Gandelsman et al. 2019) で実証されています。これは、単一のモデルを使用するよりも、画像の各コンポーネントを個別の DIP に適合させる方が簡単であるという原理に基づいています (損失の減衰の観点から)。私たちの研究と並行して、(Xu et al. 2022) は背景マット処理に対する DIP アプローチを策定しています。この問題のシナリオは、クリーンなプレートを必要とする点で私たちの研究とは異なり、そのため、移動するカメラで屋外で撮影されるものなど、多くの VFX アプリケーションには適していません。

私たちの研究でも DIP を使用しています。私たちは、分数アルファマットの高品質な推定に焦点を当てており、以前の研究とは対照的に、クリーンプレートが利用できない困難なケースに取り組んでおり、代わりにポストプロダクション中に簡単に作成できるトライマップのみに依存しています。

関連記事

前の投稿
視覚効果のためのトレーニング不要のニューラルマット抽出: 方法
次の投稿
TypeScript SDK 開発: 5 歳児でもステップバイステップで理解できる ~ パート 1: 最初の MVP