視覚効果のためのトレーニング不要のニューラルマット抽出: 方法

in Vlog

3 方法

私たちの方法は、まず DIP ネットワークを使用してターゲット イメージを再構築します。2 番目の出力ヘッドが追加され、既知の領域の値によって制約された、トライマップの未知の領域で必要なアルファを修復するタスクが与えられます。主なアイデアは、最初の出力ヘッドが、その前のネットワーク表現に「イメージの構造を理解する」ように強制し、2 番目の出力ヘッドがその情報を使用してマットを推定することです。

アルファ出力に加えて、前景と背景を同時に再構築する 2 つのネットワークを追加します。最初のネットワークの最初の出力と同様に、これらのネットワークの出力はターゲット イメージと一致するように制約されますが、最初のネットワークとは異なり、トライマップのそれぞれの領域でのみ制約されます。アルファ出力と同様に、これらの制約を外挿して、制約のない領域を修復します (図 2 を参照)。

後者の3つの出力(𝛼、ˆ𝐹、ˆ𝐵ˆ)は、それらが一緒になって(1)を満たすという追加の制約を介して結合されています(以下の詳細な損失を参照)。

前景の修復が背景から独立できるように、𝐹ˆと𝐵ˆを((Sun et al. 2021)のように)最初のネットワークの追加の出力ヘッドとしてではなく、((Gandelsman et al. 2019)のように)別々のネットワークに配置します。3つのネットワークはすべて、最初のネットワークの追加の出力ヘッドを除いて、同じ一般的なUネット構造(Ulyanov et al. 2018)を共有しています。私たちの実験では、学習率0.001のAdam(Kingma and Ba 2015)を使用しています。

3.1 損失の詳細

損失関数の最初の項は、最初のネットワーク出力とターゲット画像間の再構築損失です。

2番目の損失項は𝛼ˆを制約し、

ここで、𝑇 は三次元マップであり、𝐶 = 𝐹 ∪ 𝐵 は三次元マップの制約領域です。

前景と背景の出力の再構成損失は 𝐿𝐼 と同様に定義されますが、トライマップのそれぞれの領域内でのみ制約されます。

3 つのネットワークの出力は、次のようにアルファ合成方程式を介して結合されます。

ここで、𝑈 = 𝐼 − 𝐶 はトライマップの制約のない領域です。

最後に、前景の構造が背景に漏れたり、その逆が起きたりするのを防ぐために、(Sun et al. 2021)と同様の除外損失を含めます。

総損失は上記の 6 つの要素の合計です。

他の DIP ベースの手法とは異なり、私たちのアルゴリズムは、画像とトライマップの制約の両方に正確に適合することを目標としているため、早期停止を必要としません。

図 3: 左から、画像、グラウンド トゥルース アルファ マップ、推定アルファ マップ、白の合成。拡大して詳細を確認してください。図 3: 左から、画像、グラウンド トゥルース アルファ マップ、推定アルファ マップ、白の合成。拡大して詳細を確認してください。

3.2 時間的連続性

私たちの実験では、最初のフレーム以外のフレームの最適化を前のフレームの最終重み値でウォームスタートし、固定反復回数ではなく損失しきい値で停止することで、時間的な連続性が得られました (ビデオを参照)。この単純な戦略により、比較的難しい髪の毛の場合でも妥当な結果が得られます。また、計算時間も約 1 桁短縮されます。

3.3 なぜ機能するのでしょうか?

ディープ イメージ プライアは、標準的な畳み込みネットワークがイメージ再構成タスクの優れた低レベル プライアとして機能できることを経験的に実証していますが、なぜこれを適応させて妥当なアルファ マットを考案できるのでしょうか。私たちの直感は次のとおりです。DIP は、特定のイメージのいくぶん深く階層的なエンコーディングを提供します。このエンコーディングの特徴は主に有効なイメージ構造に及び、ノイズはこの空間の外側にあります。私たちの作業では、これらの特徴が再結合されてマットが生成されます。これが機能するのは、アルファ マットに前景イメージの構造に関連する構造が含まれているためです。この点で、私たちのアプローチは、ガイド付きイメージ フィルターの「ディープ」バージョンに似ています (He ら、2010 年)。

関連記事

前の投稿
視覚効果のためのトレーニング不要のニューラルマット抽出: 概要と概要
次の投稿
視覚効果のためのトレーニング不要のニューラルマット抽出: 背景と関連作業