
しばらくウェブサーフィンをしている人なら誰でも、街路画像の CAPTCHA グリッドをクリックして、日常の物体を特定して、それが自動ボットではなく人間であることを証明することに慣れているでしょう。しかし今回、新たな研究によると、特別にトレーニングされた画像認識モデルを使用してローカルで実行されるボットは、このスタイルの CAPTCHA で人間レベルのパフォーマンスに匹敵し、明らかに人間ではないにもかかわらず、100% の成功率を達成できると主張しています。
チューリヒ工科大学博士課程の学生、アンドレアス・プレスナー氏とその同僚の新しい研究は、プレプリント論文として入手可能で、Google の ReCAPTCHA v2 に焦点を当てており、ユーザーは、グリッド内のどの道路画像に自転車、横断歩道、山、階段などのアイテムが含まれているかを識別することが求められます。信号機。 Google は数年前にこのシステムを段階的に廃止し、明示的なチャレンジを提供するのではなくユーザー インタラクションを分析する「目に見えない」reCAPTCHA v3 を採用しました。
それにもかかわらず、古い reCAPTCHA v2 は依然として数百万の Web サイトで使用されています。また、更新された reCAPTCHA v3 を使用しているサイトでも、更新されたシステムによってユーザーの「人間的」信頼度が低い場合、フォールバックとして reCAPTCHA v2 を使用することがあります。
CAPTCHA に「YOLO」と言う
reCAPTCHA v2 に打ち勝つボットを作成するために、研究者らは、オープンソースの YOLO (「You Only Look Once」) オブジェクト認識モデルの微調整バージョンを使用しました。長年の読者なら覚えているかもしれませんが、このモデルはビデオ ゲームでも使用されていました。チートボット。研究者らは、YOLOモデルは「リアルタイムで物体を検出する能力でよく知られ」、「計算能力が限られたデバイスでも使用できるため、悪意のあるユーザーによる大規模な攻撃が可能になる」と述べている。
14,000 枚のラベル付き交通画像でモデルをトレーニングした後、研究者らは、提供された CAPTCHA グリッド画像が reCAPTCHA v2 の 13 の候補カテゴリのいずれかに属する確率を特定できるシステムを構築しました。研究者らはまた、「タイプ 2」課題と呼ばれるものに対して、別の事前トレーニング済み YOLO モデルを使用しました。このモデルでは、CAPTCHA がユーザーに、単一のセグメント化された画像のどの部分に特定の種類のオブジェクトが含まれているかを識別するよう求めます (このセグメンテーション モデルは 9 つでのみ機能しました) 13 のオブジェクト カテゴリのうちの 1 つであり、他の 4 つのカテゴリが表示された場合は、単に新しい画像を要求するだけです)。

画像認識モデル以外にも、研究者らは reCAPTCHA のシステムをだますために他の手順も講じる必要がありました。たとえば、同じ IP アドレスからの繰り返しの試行の検出を回避するために VPN が使用され、人間の活動に近似するために特別なマウスの動きモデルが作成されました。自動エージェントをより人間らしく見せるために、実際の Web 閲覧セッションからの偽のブラウザーと Cookie 情報も使用されました。
識別されるオブジェクトの種類に応じて、YOLO モデルは、69 パーセント (オートバイの場合) から 100 パーセントの時間 (消火栓の場合) まで、個々の CAPTCHA 画像を正確に識別できました。そのパフォーマンスは、他の予防措置と組み合わせると、システムによって提示される複数の個別の課題の後でも、毎回 CAPTCHA ネットをすり抜けられるほど強力でした。実際、ボットは、同様の試験で人間よりわずかに少ない課題で平均 CAPTCHA を解決できました (ただし、人間に対する改善は統計的に有意ではありませんでした)。
戦いは続く
画像認識モデルを使用して reCAPTCHA を解決しようとするこれまでの学術研究はありましたが、成功する確率は 68 ~ 71% でした。新しい論文の執筆者らによると、成功率が100パーセントに達したことは、「われわれが今や正式にキャプチャを超えた時代に入ったことを示している」という。
しかし、これは CAPTCHA の世界においてまったく新しい問題というわけではありません。 2008 年に遡ると、研究者たちは視覚障害のあるユーザー向けの音声 CAPTCHA を突破するようにボットを訓練する方法を示していました。そして 2017 年までに、ニューラル ネットワークは、文字化けしたフォントで表示される文字を入力するようユーザーに要求するテキストベースの CAPTCHA を克服するために使用されるようになりました。

古いテキスト識別 CAPTCHA は、長い間 AI モデルによって解決可能でした。
スタック交換
ローカルで実行される AI も画像ベースの CAPTCHA を簡単に解読できるようになった今、人間の識別をめぐる戦いは、デバイスのフィンガープリンティングのより巧妙な方法へと移行し続けるでしょう。 Google Cloudの広報担当者はNew Scientistに対し、「当社は、視覚的な問題を示さずに顧客がユーザーを保護できるよう支援することに非常に重点を置いている。そのため、2018年にreCAPTCHA v3をリリースした」と語った。 「現在、世界中の 7 (00 万) サイトにわたる reCAPTCHA の保護の大部分は完全に目に見えなくなりました。私たちは reCAPTCHA を継続的に強化しています。」
それでも、人工知能システムが、以前は人間のみと考えられていたタスクを模倣する能力がますます向上するにつれて、Web ブラウザーの反対側のユーザーが実際に人間であることを確認することは今後もますます困難になる可能性があります。
「ある意味で、優れたキャプチャは、最も知的な機械と最も知性の低い人間との正確な境界を示すものである」と論文の著者らは書いている。 「機械学習モデルが人間の能力に近づくにつれて、適切なキャプチャを見つけることがより困難になっています。」