Google DeepMind CEO の Demis Hassabis 氏は、Google の Gemini 大規模言語モデル (LLM) の次期バージョンを発表しました。 以前はBardとして知られていたLLMの新バージョンは、先進的な人工知能(AI)の注目を、ライバルのOpenAIのChatGPTから同社が開発した新技術へと振り向けようとするGoogleの最新の試みである。
ハサビス氏は、バージョン「Gemini 1.5」について論じたブログの中で「パフォーマンスが劇的に強化された」ことについて語り、これはGoogleのAI開発アプローチの段階的な変化を表していると述べた。 Hassabis 氏によると、現在開発者プレビューとして利用できる Pro バージョンは、「長期的なコンテキストの理解」のために最適化されています。 彼のブログ投稿には、ジェミニ 1.5 号がアポロ 11 号の月面着陸ミッションの 402 ページの記録を要約する作業にどのように対処したかを示すビデオが掲載されていました。
別のビデオでは、44 分間のバスター キートン映画の分析が示されており、ジェミニ 1.5 は主人公が紙を拾うシーンを特定するよう求められています。
X に投稿されたツイートの中で、Google エンジニアは、合計 100,000 行を超えるコード行に及ぶ 3 つの JavaScript プログラムがどのようにして Gemini 1.5 への入力として送信されたかについて議論しました。 「特定のスキルを学ぶために、コードベース内の上位 3 つの例を見つけるように Gemini に依頼したところ、考えられる数百の例を調べて、非常に関連性の高いオプションが返されました」と彼らは言いました。
コードベース内のデモの 1 つのスクリーンショットのみを使用したテストでは、Gemini が適切なデモを見つけて、画像に特定の変更を加えるためにコードを変更する方法を説明できることが示されました。
別の例では、Gemini を使用してアニメーションの特定の部分を特定し、それを制御するためにどのようなコードが使用されているかを説明しました。 同エンジニアは、Gemini 1.5 はこのコードをカスタマイズしてアニメーションに特定の調整を加える方法を正確に示すことができたと述べた。
コード例のテキストとスタイルを変更するように求められたとき、彼らは、Gemini 1.5 は変更するコード行を正確に特定でき、開発者にそれらの変更方法を示したと主張しました。 また、何が行われたのか、そしてその理由についても説明がありました。
別のツイートでは、Google DeepMind の主任科学者である Jeff Dean が、Gemini 1.5 がどのようにしてこれまで見たことのない言語である西ニューギニアの人々が話すカラマン語を取り込み、それを英語に翻訳する方法を学習できたかについて議論しました。 モデルは 573 ページの本を使用してトレーニングされました。 カラマン語の文法 Eline Visser 著、および対訳単語リスト。 同氏は定量的研究に基づいて、カラマン語を学習している人間のスコアが5.52だったのに対し、ジェミニ1.5のスコアは6点中4.36だったと述べた。
ハサビス氏は、Gemini 1.5は新しいMixture-of-Experts(MoE)アーキテクチャを採用していると述べた。 同氏は、与えられた入力の種類に応じて、MoEモデルはニューラルネットワーク内の最も関連性の高いエキスパート経路のみを選択的に活性化することを学習すると述べた。 「この特殊化により、モデルの効率が大幅に向上します」とハサビス氏は述べています。
Google、Gemini LLM で AI が進歩すると主張