リンク一覧
5. アブレーション研究
このセクションでは、動物の再識別のための初の基礎モデルである MegaDescriptor 特徴抽出器を構築する際に、モデル蒸留に関連する設計上の選択 (つまり、方法、アーキテクチャ、適切なハイパーパラメータの選択) を経験的に検証するための一連のアブレーション研究を紹介します。さらに、ゼロショット設定で新たに提案された MegaDescriptor を SIFT、Superpoint、ImageNet、CLIP、DINOv2 などの他の方法と比較した定性的および定量的なパフォーマンス評価を提供します。
5.1. 損失とバックボーンコンポーネント
最適なメトリック学習損失関数とバックボーン アーキテクチャ構成を決定するために、利用可能なすべての再識別データセットで ArcFace および Triplet 損失のパフォーマンス (中央精度) をトランスフォーマー ベース (Swin-B) または CNN ベース バックボーン (EfficientNet-B3) と比較するアブレーション スタディを実施しました。ほとんどの場合、Swin-B と ArcFace の組み合わせは、他のバリアントと同等以上のパフォーマンスを維持しています。全体的に、ArcFace およびトランスフォーマー ベース バックボーン (Swin-B) は、Triplet および CNN バックボーン (EfficientNet-B3) よりも優れたパフォーマンスを発揮しました。第 1 分位数と上部ウィスカーは、ハイパーパラメータを正しく設定しても、Triplet 損失は ArcFace よりもパフォーマンスが低いことを示しています。ボックス プロットの形式での完全な比較は、図 5 に示されています。
5.2. ハイパーパラメータの調整
ハイパーパラメータの選択に関するメトリック学習アプローチのパフォーマンス感度を克服し、一般的に最適なパラメータを選択するために、包括的なグリッド検索戦略を実行しました。
前回のアブレーションの結果に続いて、さまざまなハイパーパラメータ設定が、Arcface および Triplet 損失で最適化された Swin-B バックボーンのパフォーマンスにどのように影響するかを評価します。ArcFace の場合、最適な設定 (lr = 0.001、m = 0.5、s = 64) は、25% および 75% 四分位数がそれぞれ 49.2% および 96.4% で、平均パフォーマンスが 87.3% を達成しました。興味深いことに、3 つの設定は大幅にパフォーマンスが低下しましたが、これはトレーニングでの予期しない発散が原因であると考えられます (5)。最悪の設定では、平均精度が 6.4%、6.1%、4.0% でした。ArcFace と比較すると、Triplet 損失構成は 25% および 75% 四分位数の両方で高いパフォーマンスを示し、パフォーマンスの大きな変動を示しています。
研究の結果は図 6 にボックスプロットとして視覚化されており、各ボックスには 29 個の値が含まれています。
5.3. メトリック学習とローカル特徴
29 のデータセットで実施された結果から、メトリック学習アプローチ (Triplet と ArcFace) の両方が、ほとんどのデータセットでローカル フィーチャ ベースの方法よりも大幅に優れていることが示唆されました。ローカル フィーチャ ベースの方法 (SIFT と Superpoint) の比較により、文献では SIFT 記述子よりも Superpoint が使用されることはほとんどないにもかかわらず、Superpoint が動物の再識別に適していることが明らかになりました。詳細な比較は表 3 に示されています。キリン データセットはローカル記述子を使用してラベル付けされているため、パフォーマンスが誇張され、メトリック学習よりも優れていることに注意してください。
同じ実験により、AerialCattle2017、SMALST、MacaqueFaces、Giraffes、AAUZebraFish などのいくつかのデータセットは解決済みであるか、解決済みに近い状態であるため、開発とベンチマークから除外する必要があることが明らかになりました。
(5)より公平な比較を行うために、これら3つの設定はさらなる評価および視覚化から除外された。

