WildlifeDatasets: 動物の再識別のためのオープンソースツールキット: アブレーション研究

Posted on 7月 3, 2024

リンク一覧

5. アブレーション研究

このセクションでは、動物の再識別のための初の基礎モデルである MegaDescriptor 特徴抽出器を構築する際に、モデル蒸留に関連する設計上の選択 (つまり、方法、アーキテクチャ、適切なハイパーパラメータの選択) を経験的に検証するための一連のアブレーション研究を紹介します。さらに、ゼロショット設定で新たに提案された MegaDescriptor を SIFT、Superpoint、ImageNet、CLIP、DINOv2 などの他の方法と比較した定性的および定量的なパフォーマンス評価を提供します。

5.1. 損失とバックボーンコンポーネント

最適なメトリック学習損失関数とバックボーンアーキテクチャ構成を決定するために、利用可能なすべての再識別データセットで ArcFace および Triplet 損失のパフォーマンス (中央精度) をトランスフォーマーベース (Swin-B) または CNN ベースバックボーン (EfficientNet-B3) と比較するアブレーションスタディを実施しました。ほとんどの場合、Swin-B と ArcFace の組み合わせは、他のバリアントと同等以上のパフォーマンスを維持しています。全体的に、ArcFace およびトランスフォーマーベースバックボーン (Swin-B) は、Triplet および CNN バックボーン (EfficientNet-B3) よりも優れたパフォーマンスを発揮しました。第 1 分位数と上部ウィスカーは、ハイパーパラメータを正しく設定しても、Triplet 損失は ArcFace よりもパフォーマンスが低いことを示しています。ボックスプロットの形式での完全な比較は、図 5 に示されています。

5.2. ハイパーパラメータの調整

ハイパーパラメータの選択に関するメトリック学習アプローチのパフォーマンス感度を克服し、一般的に最適なパラメータを選択するために、包括的なグリッド検索戦略を実行しました。

前回のアブレーションの結果に続いて、さまざまなハイパーパラメータ設定が、Arcface および Triplet 損失で最適化された Swin-B バックボーンのパフォーマンスにどのように影響するかを評価します。ArcFace の場合、最適な設定 (lr = 0.001、m = 0.5、s = 64) は、25% および 75% 四分位数がそれぞれ 49.2% および 96.4% で、平均パフォーマンスが 87.3% を達成しました。興味深いことに、3 つの設定は大幅にパフォーマンスが低下しましたが、これはトレーニングでの予期しない発散が原因であると考えられます (5)。最悪の設定では、平均精度が 6.4%、6.1%、4.0% でした。ArcFace と比較すると、Triplet 損失構成は 25% および 75% 四分位数の両方で高いパフォーマンスを示し、パフォーマンスの大きな変動を示しています。

研究の結果は図 6 にボックスプロットとして視覚化されており、各ボックスには 29 個の値が含まれています。

図 6. ハイパーパラメータ検索のアブレーション。すべての設定のパフォーマンスを、29 個のデータセットすべての精度を組み合わせたボックスプロットとして表示します。ArcFace (上) と Triplet 損失 (下)。

5.3. メトリック学習とローカル特徴

29 のデータセットで実施された結果から、メトリック学習アプローチ (Triplet と ArcFace) の両方が、ほとんどのデータセットでローカルフィーチャベースの方法よりも大幅に優れていることが示唆されました。ローカルフィーチャベースの方法 (SIFT と Superpoint) の比較により、文献では SIFT 記述子よりも Superpoint が使用されることはほとんどないにもかかわらず、Superpoint が動物の再識別に適していることが明らかになりました。詳細な比較は表 3 に示されています。キリンデータセットはローカル記述子を使用してラベル付けされているため、パフォーマンスが誇張され、メトリック学習よりも優れていることに注意してください。

同じ実験により、AerialCattle2017、SMALST、MacaqueFaces、Giraffes、AAUZebraFish などのいくつかのデータセットは解決済みであるか、解決済みに近い状態であるため、開発とベンチマークから除外する必要があることが明らかになりました。

表 3. 動物の re-id 方法のアブレーション。2 つのローカルフィーチャ (SIFT と Superpoint) 方法と 2 つのメトリック学習アプローチ (Triplet と ArcFace) を比較します。メトリック学習アプローチは、ほとんどのデータセットでローカルフィーチャメソッドよりも優れたパフォーマンスを発揮しました。ArcFace は、より一貫したパフォーマンスを提供します。メトリック学習については、前回のアブレーションからの中央値をリストします。表 3. 動物の re-id 方法のアブレーション。2 つのローカルフィーチャ (SIFT と Superpoint) 方法と 2 つのメトリック学習アプローチ (Triplet と ArcFace) を比較します。メトリック学習アプローチは、ほとんどのデータセットでローカルフィーチャメソッドよりも優れたパフォーマンスを発揮しました。ArcFace は、より一貫したパフォーマンスを提供します。メトリック学習については、前回のアブレーションからの中央値をリストします。