Googleの新しいiPhone用オンデバイスAI文字起こしアプリを試してみたところ、驚くほど正確だった

in tech

Google は、さらに別の AI サービスを提供します。今回は、その「Gemma」アーキテクチャを使用したオフライン ディクテーション プログラムです。しかし、同社はこれを Gemini アプリ内に含めたり、Gemini の機能として含めたりするのではなく、専用の iPhone アプリに展開することにしました。 とても 「Google AI Edge Eloquent」というキャッチーな名前。

私はリリース日にこのアプリを試してみることにしましたが、プライバシー ポリシーのせいで躊躇しました。 Googleは、あなたの位置情報、連絡先、識別子、デバイス診断、連絡先情報、ユーザーコンテンツ、使用状況データ、および「その他」データはあなたにリンクされる可能性があるが、購入やその他の診断は収集される可能性がありますが、あなたにリンクされることはないと述べています。これは、特に「音声、機密会話、個人データが決してデバイスから流出することはない」と宣伝するアプリにとっては大量のデータであり、そうでなければアプリをダウンロードする気にはなれません。しかし、よく言われるように、サービスが無料であれば、 あなた が製品です。ここで説明を求めて Google に連絡を取ったので、返答があればこの話を更新します。

Google の新しい AI 文字起こしアプリを試す方法

アプリをダウンロードしたら、セットアップは簡単です。アプリが言うサンプルフレーズを録音し、選択します。「オンデバイス モード」は完全にオフラインで、オンラインのデバイスに会話を保存します。または「強化されたテキスト研磨」により、 オーディオ ただし、Gemini を使用してテキストを「磨き上げる」ため、データをクラウドに送信する必要があります (おそらく、前述のプライバシー ポリシー データはすべてクラウドに送信されると思われます)。ただし、アプリでトランスクリプトの基本的な編集を行うために Gemini をオンにしておく必要はありません。仕様上、アプリは「えーっと」などの「つなぎ」単語を削除します。アプリはデフォルトでは「拡張テキスト研磨」モードで開くようであることに注意してください。少なくとも私の場合はそのように動作しました。ただし、メイン画面の右上隅にあるトグルをタップするだけで、「オンデバイス モード」に切り替わります。

アプリを立ち上げて実行するのに少し問題がありました。テストしようとするたびに、私がまったく話していないと主張されました。しかし、AirPods を iPhone とペアリングしてペアリングを解除すると、アプリは機能するようになりました。アプリをテストするために、この Audio University YouTube ビデオのイントロを再生しました。これは完全に対話ベースです。アプリが動作すると、すぐにビデオの文字起こしが開始され、少なくとも最後まではほぼ完璧な精度でした。アプリが間違った単語を入力し、その後、文脈が提供される後続の単語として取り消して置き換える様子を観察していました。録画が完了すると、トランスクリプトはビデオのトランスクリプトとほぼ同じでしたが、いくつかの奇妙な点を除けば、「これが初めての会議である場合」を「初めての会議です」と誤って認識し、1 つの文を 2 回録音していました。しかし、それを除けば、これはビデオの冒頭の完全に使えるトランスクリプトです。

これまでのところどう思いますか?

ここからは、特にジェミニに協力を求める場合、さまざまなオプションがあります。 AI が「磨き上げた」間違ったテキストを修正したい場合は、トランスクリプト上の鉛筆アイコンをタップして手動で編集できます。この上に、発話された単語数、1 分あたりの発話された単語数、AI による編集数などの「使用状況統計」が表示されます。 Gemini のスイッチをオンにすると、「キー ポイント」、「フォーマル」、「ショート」、「ロング」などの追加の AI 編集ツールにアクセスできるようになります。文字起こしに満足したら、コピー ボタンをタップしてテキストをクリップボードに移動し、別の場所に貼り付けることができます。[履歴]タブでは、以前の文字起こしを表示し、そこに戻って編集することができます (手動または AI を使用)。[辞書]タブでは、頻繁に使用するが AI が認識できない可能性のある難読な単語を追加できるため、今後の録音の精度が向上します。

私の簡単なテストでは、アプリはうまく動作し、デバイス上でのみ使用するオプションを高く評価しました。特に、より堅牢な機能がいくつかあるため、iOS の組み込み文字起こしよりも高速または正確であると思われる場合は、iOS の組み込み文字起こしよりも使用することを間違いなく検討します。 します 私のデータを Google の手に渡さないことを意味します。

関連記事

前の投稿
BMW、i7に超長距離バッテリーを搭載するためにRimacを採用
次の投稿
メルセデス GLC のことは忘れてください。このトヨタの SUV ははるかに高級感があります。

関連記事