
木曜日、AI ホスティング プラットフォームの Hugging Face は、AI モデルのリスト数が初めて 100 万件を超え、急速に拡大する機械学習分野におけるマイルストーンを記録しました。 AI モデルは、特定のタスクを実行したり予測を行ったりするためにデータに基づいてトレーニングされたコンピューター プログラム (多くの場合、ニューラル ネットワークを使用します) です。このプラットフォームは 2016 年にチャットボット アプリとしてスタートし、2020 年に AI モデルのオープンソース ハブへと舵を切り、現在は開発者や研究者向けの幅広いツールをホストしています。
機械学習の分野は、ChatGPT を強化するような単なる大規模言語モデル (LLM) よりもはるかに大きな世界を表しています。 X への投稿で、Hugging Face の CEO である Clément Delangue 氏は、自社が「Llama、Gemma、Phi、Flux、Mistral、Starcoder、Qwen、Stable diffusion、Grok、Whisper、Olmo、Command」などの多くの注目を集める AI モデルをどのようにホストしているかについて書いています。 、Zephyr、OpenELM、Jamba、Yi」だけでなく、「その他 999,984 個」も含まれます。
その理由はカスタマイズにあるとデラング氏は言います。 「『1 つのモデルがすべてを支配する』という誤った考えとは反対に、ユースケース、ドメイン、言語、ハードウェア、そして一般的な制約に合わせて、より小規模でカスタマイズされ、最適化されたモデルの方が優れています。実際のところ、」と彼は書いています。ほとんどの人が気づいていないことですが、Hugging Face には 1 つの組織のみにプライベートに公開されているモデルがほぼ同数存在しており、企業が特に自社のユースケースに合わせて AI をプライベートに構築するためのものです。」

ハグフェイスの主要な AI プラットフォームへの変革は、テクノロジー業界全体で AI 研究開発のペースが加速していることを受けて行われました。わずか数年で、サイトでホストされるモデルの数は、この分野への関心とともに劇的に増加しました。 X では、Hugging Face プロダクト エンジニアの Caleb Fahlgren が、プラットフォーム上で毎月作成されるモデルのグラフ (および他のグラフへのリンク) を投稿し、次のように述べています。モデルは月々飛躍的に進歩しており、9 月はまだ終わっていません。」
微調整の力
上記の Delangue が示唆したように、プラットフォーム上の膨大な数のモデルは、プラットフォームの協調的な性質と、特定のタスクに合わせて既存のモデルを微調整する実践から生じています。微調整とは、既存のモデルを使用して追加のトレーニングを行い、ニューラル ネットワークに新しい概念を追加し、出力の生成方法を変更することを意味します。世界中の開発者や研究者が成果を提供し、大規模なエコシステムを形成しています。
たとえば、このプラットフォームは、元のベース モデルのさまざまな微調整バージョンを表す Meta のオープンウェイト Llama モデルの多くのバリエーションをホストしており、それぞれが特定のアプリケーション向けに最適化されています。
Hugging Face のリポジトリには、幅広いタスク用のモデルが含まれています。そのモデル ページを参照すると、「マルチモーダル」セクションの下に、画像からテキストへの変換、ビジュアルな質問応答、ドキュメントの質問応答などのカテゴリが表示されます。 「Computer Vision」カテゴリには、特に深度推定、物体検出、画像生成などのサブカテゴリがあります。テキスト分類や質問応答などの自然言語処理タスクも、音声、表形式、強化学習 (RL) モデルとともに表されます。

ハグフェイス
「最もダウンロード数」に基づいて並べ替えると、Hugging Face モデルのリストから、どの AI モデルが人々に最も役立つと思われるかについての傾向が明らかになります。トップは、MIT の Audio Spectrogram Transformer で、1 億 6,300 万ダウンロードという圧倒的なリードを保っています。これは、音声、音楽、環境音などのオーディオ コンテンツを分類します。これに続くのが Google の BERT で、5,420 万ダウンロードされています。これは、マスクされた単語や文の関係を予測することで英語の理解を学習し、さまざまな言語タスクを支援できるようにする AI 言語モデルです。
上位 5 つの AI モデルを締めくくるのは、all-MiniLM-L6-v2 (文と段落を 384 次元の密なベクトル表現にマッピングし、セマンティック検索に役立ちます)、Vision Transformer (画像をパッチのシーケンスとして処理して画像分類を実行する) です。 、OpenAI の CLIP (画像とテキストを結び付け、自然言語を使用してビジュアル コンテンツを分類または説明できるようにします)。
モデルやタスクが何であれ、プラットフォームは成長し続けます。 「現在、HF では新しいリポジトリ (モデル、データセット、スペース) が 10 秒ごとに作成されています」と Delangue 氏は書いています。 「最終的には、コード リポジトリと同じくらい多くのモデルが存在することになるでしょう。そして私たちはそれをサポートします!」