非営利団体が物議を醸している AI トレーニング データセットから違法コンテンツを削除

in Vlog
非営利団体が物議を醸している AI トレーニング データセットから違法コンテンツを削除

スタンフォード・インターネット・オブザーバトリーの研究員デビッド・ティール氏が、画像生成器を汚染するAIトレーニングデータセットに児童性的虐待資料(CSAM)へのリンクを発見した後、物議を醸したデータセットは2023年に直ちに削除された。

現在、LAION (大規模人工知能オープンネットワーク) チームは、Re-LAION-5B と呼ばれる LAION-5B データセットの削除バージョンをリリースし、「疑わしい CSAM への既知のリンクが徹底的に削除された、初の Web 規模のテキストリンクと画像のペアのデータセット」であると主張しています。

データセットを整理するため、LAIONはインターネット監視財団(IWF)およびカナダ児童保護センター(C3P)と提携し、オンライン安全組織のデータベースにあるハッシュ化された画像と一致する2,236のリンクを削除した。削除されたのは、ティールがフラグを立てたすべてのリンクと、LAIONのパートナーやヒューマン・ライツ・ウォッチなどの他の監視団体がフラグを立てたコンテンツで、ヒューマン・ライツ・ウォッチはデータセットに実際の子供の写真が本人の同意なく含まれていたのを発見し、プライバシーの問題を警告した。

ティール氏は研究の中で、「AIモデルのトレーニングデータに児童虐待の素材を含めると、子供たちを違法な性的行為に関連付けるツールが教えられ、既知の児童虐待画像が使用され、新たな、潜在的に現実的な児童虐待コンテンツが生成される」と警告した。

ティール氏は、LAION や AI トレーニング データをインターネットから収集している他の研究者に対し、CSAM だけでなく、子供の写真と組み合わせて CSAM を生成する可能性のある露骨な画像も適切にフィルタリングするための新しい安全基準が必要だと主張した (最近、米国司法省は「AI によって生成された CSAM は依然として CSAM である」と明言した)。

LAION の新しいデータセットは、以前のデータセットでトレーニングされたモデルを変更するものではないが、LAION は Re-LAION-5B が「Web 規模の画像リンク データセットをクリーニングするための新しい安全基準」を設定すると主張している。以前は違法コンテンツが LAION のフィルターを「すり抜けていた」が、研究者らは「違法コンテンツを識別して削除する」ための改良された新しいシステムを開発したと LAION のブログは述べている。

ティール氏は Ars に対し、LAION が最新リリースで新しい安全基準を設定したことには同意するが、「改善する方法は確かにある」と語った。しかし、「それらの方法では、すべてのオリジナル画像を所有するか、まったく新しいクロールを行う必要がある」と述べ、LAION の投稿では、画像ハッシュのみを使用し、違法またはセンシティブなコンテンツをさらに取り込むリスクのある新しいクロールは行っていないことを明らかにした。(Threads で、ティール氏は LAION のデータセットをクリーンアップする取り組みについて、より詳細な感想を共有した。)

LAION は、「現在の最先端のフィルターだけでは、Web 規模のデータ構成シナリオにおける CSAM からの保護を保証するには信頼性が不十分である」と警告しました。

「フィルタリングをより確実に行うには、専門組織 (私たちの場合は IWF と C3P) が作成した疑わしいリンクや画像のハッシュ リストが適しています」と LAION のブログには書かれています。「研究室や、パブリック Web からデータセットを作成しているその他の組織は、IWF や C3P などの組織と提携して、そのようなハッシュ リストを入手し、フィルタリングに使用することをお勧めします。長期的には、Web からデータセットを作成する研究コミュニティがそのようなハッシュ リストを利用できるようにする、より大規模な共通イニシアチブを作成することもできます。」

LAIONによると、より大きな懸念は、2022年のデータセットにスクレイピングされた既知のCSAMへのリンクの一部が、1年以上経った今でもまだアクティブであることだ。

「これは、法執行機関がIWFやC3Pなどの組織の情報や勧告に従って、公共のウェブ上でそのような画像コンテンツをホストするドメインを削除し、さまざまな研究関連活動にとってもより安全な場所にするための取り組みを強化する必要があることを明確に示唆している」とLAIONのブログは述べている。

HRWの研究員ヘ・ジョン・ハン氏は、LAIONが彼女が警告した機密データを削除したことを称賛し、さらなる介入を求めた。

「LAIONがデータから子供の個人的な写真を適宜削除したことは大変歓迎すべきことであり、これらの子供たちの肖像がAIシステムによって悪用されることを防ぐのに役立つだろう」とハン氏はArsに語った。「すべての子供たちのオンライン上のプライバシーを保護する児童データ保護法を制定するのは、今や政府次第だ」

LAIONのブログでは、コンテンツの削除は初期データセットに存在したCSAMの「上限」を表していると述べられているが、AIスペシャリストでCreative.AIの共同設立者であるアレックス・シャンパンダール氏は、すべてのCSAMが削除されたかどうかは疑わしいとArsに語った。

「それらは、以前に特定された CSAM を除外するだけであり、部分的な解決策にすぎません」とシャンパンダール氏は Ars に語った。「統計的に言えば、CSAM のほとんどの事例は、C3P や IWF によって報告も調査もされていない可能性が高いです。この問題のより合理的な推定は、生成モデルのトレーニングに決して使用したくない事例が約 25,000 件、おそらく 50,000 件あるということです。」

シャンパンダール氏は、トレーニングデータがウェブから収集される際にAIによる危害から人々を守るためにさらなる規制が必要だというハン氏の意見に同意した。

「プライバシー、著作権、違法コンテンツなど、あらゆる面で改善の余地がある」とシャンパンダール氏は語った。「このようなウェブスクレイピングされたデータセットによって、データ権利が侵害されるケースが多すぎる」ため、シャンパンダール氏は、LAION のようなデータセットは「時の試練に耐えられない」と示唆した。

「政策立案者が問題の大きさに気づくまで、LAIONは単に司法制度の規制のギャップと遅れの中で活動しているだけだ」とシャンパンダール氏は語った。

関連記事

前の投稿
NASAはクルー9の最終任務を決定するにあたり、非常に厳しい決断を下した。
次の投稿
コンピューターハードウェアレビューの主力サイト、AnandTechが27年の歴史に幕を閉じる