オーストラリア政府の試験で、AIは要約能力が人間よりはるかに劣っていることが判明

in Vlog
ASICの評価者は、AIの要約がしばしば
拡大する / ASIC の評価者は、AI の要約は多くの場合「冗長で無意味であり、提出された内容を単に繰り返しているだけ」であると判断しました。

ゲッティイメージズ

大規模言語モデルがますます注目を集める中、多くのユーザーや企業は、長い文書を素早く要約して人間が理解しやすいものにする便利な機能に注目してきました。しかし、オーストラリア証券投資委員会 (ASIC) がこの潜在的な使用事例を調査したところ、Llama2-70B モデルから得られる要約は、人間が作成した要約よりも大幅に劣っていると判断されました。

ASIC の概念実証研究 (PDF) は 1 月と 2 月に実施され、3 月にまとめられ、5 月の上院の調査に応じて公開されましたが、この研究には多くの制限があり、現在の最先端の LLM の要約機能について一般化することは困難です。それでも、この政府の研究は、LLM 出力を既存のワークフローに単純に挿入する前に、大規模組織が考慮すべき潜在的な落とし穴を数多く示しています。

スコアを記録する

ASIC は、この調査で Amazon Web Services と提携し、LLM が「監査およびコンサルティング会社を調査している外部の議会合同委員会の調査に提出された公的提出物のサンプル」を要約する能力を評価しました。ASIC の目的からすると、これらの提出物の適切な要約とは、ASIC への言及、利益相反を避けるための推奨事項、およびさらなる規制を求める要求を強調し、すべてページ番号と「簡単な背景」を参照して説明することです。

ASIC チームは、研究の初期段階では、Llama2-70B に加えて、より小型の Mistral-7B および MistralLite モデルも検討しました。この比較は、「大型モデルの方が結果が良くなる傾向があるという業界の見解を裏付けた」と著者らは書いています。しかし、一部のソーシャル メディア ユーザーが指摘しているように、Llama2-70B 自体も、多くの一般的な品質評価でスコアが高い ChatGPT-4o、Claude 3.5 Sonnet、Llama3.1-405B などの大型モデルに追い抜かれています。ただし、ASIC は、単に最大のモデルを選択するだけでなく、「モデルに提示される質問やタスクを慎重に作成する適切なプロンプト エンジニアリングが、最適な結果を得るのに不可欠である」ことを発見したと述べています。ASIC と AWS は、温度、インデックス作成、トップ k サンプリングなどの舞台裏のモデル設定の調整にも苦労しました。(トップ k サンプリングは、モデルによって予測される確率に基づいて、次に最も可能性の高い単語またはトークンを選択する手法です。)

「要約は非常に一般的な内容で、ASIC がどのように参照されたかというニュアンスは AI 生成の要約では伝わりませんでした…」

ASIC デジタルおよび変革リーダー Graham Jefferson

ASIC は、5 人の「ビジネス担当者」を使用して、提出された 5 つの文書の LLM の要約を、主題専門家が作成した要約と比較評価しました (評価者は各要約のソースを認識していませんでした)。AI 要約は、一貫性/整合性、長さ、ASIC 参照への焦点など、評価者が使用した 5 つの指標すべてで大幅に劣っていると判断されました。5 つの文書全体で、AI 要約は平均合計 7 ポイント (ASIC の 5 つのカテゴリ、15 ポイント スケール) を獲得し、人間による要約は 12.2 ポイントでした。

ニュアンスが欠けている

AI 要約の最大の弱点は、「文脈、微妙なニュアンス、または暗黙の意味を深く理解する必要がある複雑なコンテンツを分析および要約する能力が限られている」ことだと ASIC は述べています。ある評価者は、AI 要約は「冗長で無意味であり、提出された内容を単に繰り返しているだけ」であると指摘し、この問題を強調しました。

「私たちが発見したのは、一般的に言って、要約は非常に一般的なものであり、ASICがどのように言及されていたかというニュアンスは、ASICの従業員が要約作業を行っていたときのように、AIが生成した要約では伝わっていなかったということです」と、ASICのデジタルおよび変革リーダーであるグラハム・ジェファーソン氏は、この結果についてオーストラリア上院委員会に語った。

評価者はまた、AI の要約に誤った情報が含まれていたり、関連情報が欠落していたり​​、無関係な情報が強調表示されていたりすると指摘した。AI の幻覚が存在するということは、「モデルが文法的には正しいが、事実上不正確なテキストを生成した」ことも意味している。

これらの問題を総合すると、「AI 出力を(現状のまま)使用した場合、出力を事実確認する必要があることや、元のソース資料の方が実際には情報をより適切に提示していることから、潜在的に作業が増える可能性があることに評価者は概ね同意した」ということになります。

ただのコンセプト

これらの結果は、要約に LLM を使用することを否定するかなり決定的なポイントのように思えるかもしれないが、ASIC はこの概念実証研究には重大な限界があると警告している。研究者らは、たとえばモデルを最適化するのに 1 週​​間しかなかったことを指摘し、「この (最適化) 段階にもっと時間を費やせば、より優れた、より正確な結果が得られる可能性がある」と考えている。

また、(現在は時代遅れの)Llama2-70B に焦点を当てるということは、「結果が必ずしも他のモデルのパフォーマンスを反映するわけではない」ということも意味する、と著者らは警告している。「より大きな文書内で参照を見つけることは、LLM にとって非常に困難な作業である」ため、より大きなコンテキスト ウィンドウとより優れた埋め込み戦略を備えたより大きなモデルの方が成功する可能性があると著者らは書いている。

この結果にもかかわらず、ASIC は「技術が進歩し続けるにつれて Gen AI にチャンスがある」と依然として考えていると述べている。「この分野では技術が進歩しており、将来のモデルではパフォーマンスと結果の精度が向上する可能性が高い」

関連記事

前の投稿
生成AIの反発が毎年恒例の執筆イベントを襲い、辞任を招く
次の投稿
ベガロケットは商業的なニッチを見つけることができなかった。今夜を境に、それは消え去った。