OpenAI、2024年の開発者イベントで簡単な音声アシスタントの作成を発表

in Vlog
青色の背景に光る OpenAI ロゴ。

ベンジ・エドワーズ

OpenAIは月曜日、毎年恒例のDevDayイベントをサンフランシスコで開幕し、同社のAIモデルを製品に統合する開発者向けの4つの主要なAPIアップデートを発表した。 CEO サム アルトマンによる基調講演を特徴とする昨年の単一会場イベントとは異なり、DevDay 2024 は単なる 1 日ではなく、10 月 30 日にはロンドン、11 月 21 日にはシンガポールでも追加のイベントが予定されており、グローバルなアプローチが採用されています。

サンフランシスコのイベントは招待者のみで報道関係者は非公開で、ステージ上で講演者が技術的なプレゼンテーションを行った。おそらく最も注目に値する新しい API 機能は、現在パブリック ベータ版となっている Realtime API です。これにより、6 つのプリセット音声を使用したスピーチツースピーチ会話がサポートされ、開発者は ChatGPT の Advanced Voice Mode (AVM) によく似た機能をアプリケーションに組み込むことができます。

OpenAIによると、Realtime APIは音声アシスタントの作成プロセスを合理化するという。以前は、開発者は音声認識、テキスト処理、およびテキストから音声への変換に複数のモデルを使用する必要がありました。現在では、単一の API 呼び出しでプロセス全体を処理できるようになりました。

同社は今後数週間以内にチャットコンプリーション API に音声入出力機能を追加し、開発者がテキストまたは音声を入力し、いずれかの形式で応答を受信できるようにする予定です。

より安価な推論のための 2 つの新しいオプション

OpenAI は、開発者が AI アプリケーションを作成する際にパフォーマンスとコストのバランスをとるのに役立つ可能性のある 2 つの機能も発表しました。 「モデル蒸留」は、開発者が GPT-4o や o1-preview などのより高度なモデルからの出力を使用して、GPT-4o mini などの小型で安価なモデルを微調整 (カスタマイズ) する方法を提供します。これにより、開発者は安価なモデルを実行しながら、より関連性の高い正確な出力を取得できる可能性があります。

また、OpenAI は、Anthropic が 8 月に Claude API に導入した機能と同様の機能である「プロンプト キャッシング」を発表しました。頻繁に使用されるプロンプト (入力トークン) を記憶することで、推論 (AI モデルが出力を生成する) を高速化します。この機能により、入力トークンが 50% 割引され、最近確認された入力トークンを再利用することで処理時間が短縮されます。

そして最後に重要なことですが、同社は微調整機能を画像を含めるように拡張し (これを「ビジョン微調整」と呼んでいます)、開発者がカスタム画像とテキストの両方を供給することで GPT-4o をカスタマイズできるようになりました。基本的に、開発者は GPT-4o のマルチモーダル バージョンに特定のものを視覚的に認識するように教えることができます。 OpenAIは、この新機能により、視覚検索機能の向上、自動運転車のより正確な物体検出、さらには医用画像分析の強化の可能性が開かれると述べている。

サム・アルトマンの基調講演はどこですか?

OpenAI CEO の Sam Altman 氏は、2023 年 11 月 6 日にサンフランシスコで開催される OpenAI DevDay イベントで講演します。
拡大する / OpenAI CEO の Sam Altman 氏は、2023 年 11 月 6 日にサンフランシスコで開催される OpenAI DevDay イベントで講演します。

ゲッティイメージズ

昨年とは異なり、DevDay はライブ ストリーミングではありませんが、OpenAI は後でコンテンツを YouTube チャンネルに投稿する予定です。イベントのプログラムには、分科会セッション、コミュニティのスポットライト、デモが含まれます。しかし、昨年からの最大の変化は、同社のCEOが基調講演に出席しなかったことだ。今年の基調講演は OpenAI 製品チームが担当しました。

昨年の第 1 回 DevDay である 2023 年 11 月 6 日、OpenAI CEO のサム アルトマンは、集まった開発者、OpenAI 従業員、報道関係者にスティーブ ジョブズ スタイルのライブ基調講演を行いました。プレゼンテーション中に、マイクロソフト CEO のサティア ナデラ氏がサプライズで登場し、両社のパートナーシップについて語りました。

11日後、OpenAI取締役会はアルトマン氏を解任し、1週間の混乱を引き起こし、アルトマン氏がCEOとして復帰し、新たな取締役会が発足した。解雇直後、カラ・スウィッシャー氏は内部情報筋の話として、アルトマン氏のDevDay基調講演とGPTストアの導入が、同社のより消費者寄りの方向性を巡る社内の意見の相違により、解雇の促進要因となった(主要な要因ではないが)と伝えた。 ChatGPT の発売以来。

その歴史を念頭に置き、そしてこのイベントでは何よりも開発者に焦点を当てていることから、同社はアルトマン氏を基調講演から退かせ、彼の代わりに OpenAI のテクノロジーをイベントの主要な焦点にすることが最善であると判断したのでしょう。この点については私たちは純粋に推測にすぎませんが、OpenAI は確かに過去 1 か月間、それなりのドラマを経験しており、賢明な決定だったのかもしれません。

基調講演はなかったものの、アルトマン氏は今日の Dev Day San Francisco に出席し、最後に締めくくりの「炉辺での雑談」を行う予定だ (この記事の執筆時点ではまだ行われていない)。また、Altman 氏は X の DevDay について声明を発表し、昨年の DevDay 以降、OpenAI には (文字通り) 劇的な変化が見られたと述べました。

前回の開発日から今回の開発日まで:

*GPT-4 から 4o mini へのトークンあたりのコストの 98% 削減
*システム全体のトークン量が 50 倍に増加
*モデルインテリジェンスの優れた進歩
* (そして途中で少しのドラマも)

アルトマン氏はトレードマークの小文字で配信したフォローアップツイートで、AGIと呼ばれることが多い人間レベルのAIの同社の探求に言及した前向きなメッセージを共有した。「今回の開発日から次の開発日までさらに進歩することに興奮している」彼は書いた。 「agiへの道がこれほど明確に感じられたことはありません。」

関連記事

前の投稿
AI が反復的なスカトロ文書を深遠な「うんこ」ポッドキャストにダイジェストします
次の投稿
最新のデザインアップデート、Ars 9.0 へようこそ!