新しいAI標準グループはデータスクレイピングをオプトインにしたいと考えている

in Vlog
彼らは知っている...

オーリッチ/ゲッティ

主要な生成 AI ツールの第一波は、主に「公開されている」データ、つまりインターネットから収集できるあらゆるデータでトレーニングされていました。現在、トレーニング データのソースはアクセスを制限し、ライセンス契約を求める傾向が強まっています。追加のデータ ソースの探索が激化する中、ソース マテリアルの供給を維持するために、新しいライセンス スタートアップが登場しています。

今年の夏に結成された業界団体、データセットプロバイダーアライアンスは、AI 業界をより標準化し、公平にしたいと考えています。その目的のため、同団体は主要な AI 関連の問題に対する立場を概説したポジションペーパーを発表しました。同アライアンスは、音楽著作権管理会社 Rightsify、日本のストックフォトマーケットプレイス Pixta、生成 AI 著作権ライセンスのスタートアップ Calliope Networks など、7 つの AI ライセンス会社で構成されています (少なくとも 5 つの新しいメンバーが秋に発表される予定です)。

DPA はオプトイン システムを推奨しており、これは、作成者と権利保有者から明示的に同意を得た場合にのみデータが使用されることを意味します。これは、ほとんどの大手 AI 企業の運営方法から大きく逸脱しています。独自のオプトアウト システムを開発している企業もあり、データ所有者にケースバイケースで作業を取り下げる負担を課しています。また、オプトアウトをまったく提供していない企業もあります。

DPA は、メンバーにオプトイン規則の順守を求めており、その方法の方がはるかに倫理的であると考えている。「アーティストやクリエイターは参加すべきだ」と、この取り組みの先頭に立った Rightsify および音楽データライセンス会社 Global Copyright Exchange の CEO であるアレックス・ベスタル氏は言う。ベスタル氏は、オプトインを道徳的であると同時に実用的なアプローチだと見ている。「公開されているデータセットを販売することは、訴訟を起こされ、信用を失う原因の 1 つです。」

元AI幹部で現在は倫理的なAI非営利団体フェアリー・トレーニングを運営するエド・ニュートン=レックス氏は、オプトアウトは「クリエイターにとって根本的に不公平」だとし、オプトアウトがいつ提供されるのかさえ知らない人もいるかもしれないと付け加えた。「DPAがオプトインを求めているのは特に良いことだ」と同氏は言う。

AIデータセットを監査するボランティア団体、データプロベナンスイニシアチブのリーダー、シェイン・ロングプレ氏は、DPAが倫理的にデータソースを調達する取り組みは称賛に値すると考えているが、現代のAIモデルのほとんどが膨大な量のデータを必要とするため、オプトイン基準の導入は難しいのではないかと懸念している。「この体制では、データ不足に陥るか、多額の支払いをするかのどちらかになる」と同氏は言う。「おそらく、そのすべてのデータのライセンスを支払えるのは、大手テクノロジー企業など、ほんの一握りの企業だけだろう」

この論文では、DPA は政府によるライセンス義務化に反対し、代わりにデータ作成者と AI 企業が直接交渉する「自由市場」アプローチを主張している。他のガイドラインはより詳細だ。たとえば、同連合は、作成者と権利保有者がデータに対して適切に支払われるようにするための 5 つの潜在的な報酬構造を提案している。これには、サブスクリプション ベースのモデル、「使用量ベースのライセンス」(使用ごとに料金が支払われる)、および「成果ベースの」ライセンス (ロイヤリティが利益に連動) が含まれる。「これらは、音楽から画像、映画、テレビ、書籍まで、あらゆるものに応用できる可能性があります」と Bestall 氏は言う。

「報酬構造の標準化を目指すことは、潜在的に良いことだ」と、著作権を研究する技術者ビル・ローゼンブラット氏は言う。「データセットプロバイダーアライアンスは、条件を提示するのに非常に良い立場にある」。ローゼンブラット氏の見解では、AI 企業がライセンスを採用するにはインセンティブが必要だ。法的な理由 (訴訟の恐れ、ライセンスを義務付ける規制) が最も説得力があるのは明らかだが、ローゼンブラット氏は、ライセンサー候補者にとってプロセスを可能な限り簡単で便利なものにすることも重要だと語る。支払いモデルの標準化は、主流の採用への道をスムーズにするのに役立つと彼は主張する。

DPA はまた、合成データ (AI によって生成されるもの) の一部の使用を承認し、近い将来にはそれがトレーニング データの「大半を占める」と主張しています。「著作権者の中には、おそらくそれを好まない人もいるでしょう」と Bestall 氏は言います。「しかし、それは避けられないことです。」この同盟は、合成データを作成するために使用される事前トレーニング情報の「適切なライセンス」と、合成データの作成方法に関する透明性を提唱しています。また、合成データ モデルの定期的な「評価」を呼びかけ、「偏見や倫理的問題を軽減する」ことも求めています。

もちろん、DPA は業界の有力企業を参加させる必要があるが、これは言うほど簡単ではない。「倫理的にデータのライセンスを付与する方法に関する標準が生まれつつある」とニュートン レックス氏は言う。「しかし、それを採用している AI 企業は十分ではない」

それでも、DPA の存在自体が、AI の無法地帯時代が終わりに近づいていることを示しています。「すべてが急速に変化しています」と Bestall 氏は言います。

この記事は元々wired.comに掲載されたものです。

関連記事

前の投稿
スターリンクはブラジルに屈し、イーロン・マスクのXプラットフォームをブロックすることに合意
次の投稿
生命を育む水の世界は私たちが考えていたよりも多くあるかもしれない