WildlifeDatasets: 動物の再識別のためのオープンソースツールキット: 関連研究

Posted on 7月 4, 2024

リンク一覧

同様に、他の分野と同様に、自動動物再識別の方法とデータセットの開発は、機械学習の進歩の影響を受けています。現在、多くの研究が行われていますが、アプローチ、予測出力、評価方法の違いにより、いくつかの欠点が生じています。

まず、これらの方法は、現実世界の再識別シナリオに動機付けられるのではなく、機械学習のトレンドに触発されるのが一般的です。顕著な例としては、クローズドセットでの分類タスクの実行が挙げられます。これは、ディープラーニングのベンチマークでは一般的ですが、新しい個体が絶えず集団に採用されるため、一般に生態学では現実的ではありません。

第二に、多くの研究は単一のデータセットに焦点を当てており、データセットファミリーではなく特定のデータセットで評価される種固有の方法を開発しているため (6、10、20、25、31、52)、再現性、移転可能性、一般化が困難になっています。

3 番目に、データセットは適切に管理されておらず、トレーニングからテストまでの不要なデータ漏洩が含まれることが多く、パフォーマンスの期待値が過大になります。

これらすべてが、データセットのキュレーションと方法の設計の両方において不適切な慣行の繰り返しにつながります。そのため、現在の研究の多くは統一性の欠如に悩まされており、それがさらなる開発、評価、および現実世界の状況への応用の障害になっていると私たちは主張しています。

2.1. ツールと方法

野生生物の再識別に一般的に使用される主なアプローチは 3 つあります。(i) ローカル記述子 (9、21、43)、(ii) ディープ記述子 (12、16、31、34、49)、(iii) 種固有の方法 (6、10、25、29、52) です。

局所特徴に基づく方法 ユニークなキーポイントを見つけ、マッチングのためにローカル記述子を抽出します。マッチングは通常、既知のアイデンティティのデータベースで行われます。つまり、与えられた画像サンプルごとに、記述子の一致数が最も多いアイデンティティが取得されます。これらの方法の最も重要な利点は、微調整の必要がないプラグアンドプレイの性質であり、ゼロショット設定でCLIP（42）やDINOv2（37）などの大規模な基礎モデルと比較できます。

SIFT、SURF、またはORB記述子に基づくアプローチは、大規模なデータセットへの効率的なスケーリングとそのパフォーマンスに限界がありますが、WildID（11）、HotSpotter（15）、I 3Sなどの利用可能なソフトウェア製品はすべて、ローカルフィーチャベースの方法に基づいています。当然、そのような制限があっても、これらのシステムは包括的な技術的背景を持たない生態学研究者の間で人気があり、直感的なグラフィカルユーザーインターフェイス（GUI）のおかげで、幅広い用途があります。

ディープフィーチャベースのアプローチ ディープニューラルネットワークの最適化を通じて学習された画像のベクトル表現に基づいています。同様に、ローカルフィーチャベースの方法と同様に、結果として得られるディープ埋め込みベクトル (通常は 1024 または 2048d) は ID データベースと照合されます。

ディープラーニングを野生動物の再識別に適用することは、人間や車両の再識別と類似点があります。そのため、同様の方法を簡単に再利用できます。ただし、ディープラーニングでは特定のターゲットドメイン、つまり種に合わせてモデルを微調整する必要があり、モデルのパフォーマンスは微調整された種に依存することに注意することが重要です。別のアプローチは、大規模なデータセットで事前トレーニングされた、公開されている大規模な基礎モデルを使用することです (例: CLIP (42) および DINOv2 (37))。これらのモデルは、主に一般的なコンピュータービジョンタスク用に設計されています。したがって、細かい特徴に大きく依存する野生動物の再識別のニュアンスに合わせて調整またはテストされていません。

種特異的な方法 これらの手法は、個々の種または近縁種のグループ、特に視覚的に異なるパターンを持つ種に合わせて調整されます。これらの手法は通常、対象種に固有の視覚的特徴に焦点を当てているため、開発された種以外には適用できません。さらに、関心領域からパッチを抽出したり、比較画像を正確に位置合わせしたりするなど、手動での前処理手順が大量に必要になることがよくあります。たとえば、そのようなアプローチの 1 つに、面取り距離を使用してホッキョクグマのひげのグレースケールパターン間の距離を測定するものがあります (6)。他の例としては、チーター斑点から得られた位置合わせされたパッチ間の相関関係 (29) や、イモリのパターン内の一致するピクセルの数に基づいて 2 つの画像間の類似性を計算することなどがあります (20)。

前の投稿

技術リーダーがデータ実務者の燃え尽き症候群を防ぐ方法

次の投稿

ディープラーニングによる下肢外骨格の重量分布推定：結果