AI チャットボットは医療アドバイスを与えるのが私たちが思っているよりもさらに下手

Posted on 13 2月 12:54 am

LLM チャットボットは、健康に関する質問も含め、ユーザーのあらゆる質問に答えられると考えたくなります。結局のところ、チャットボットは多くの医療情報について訓練されており、適切なプロンプトが与えられればそれを吐き出すことができます。しかし、それは彼らがあなたに与えるという意味ではありません 正確な 医学的アドバイスと新たな勉強 AI の専門知識がいかに容易に崩れるかを示しています。要するに、彼らは私が思っていたよりもさらに下手なのです。

この研究では、研究者らはまず、医療情報についていくつかのチャットボットに質問した。これらの慎重に実施されたテストでは、ChatGPT-4o、Llama 3、および Command R+ は、94% の確率で医療シナリオを正しく診断しました。ただし、適切な治療法を推奨できた確率は 56% でした。

しかし、それはチャットボットの医療ユーティリティにとって現実世界でのテストではありませんでした。

次に、研究者らは1,298人に医療シナリオを与え、LLMを使用してそのシナリオで何が起こっているのか、そしてそれに対して何をすべきかを把握するよう依頼した（たとえば、救急車を呼ぶべきか、都合の良いときに医師のフォローアップをすべきか、または自分で問題に対処すべきかなど）。

参加者は以下の方法で募集されました。オンラインプラットフォーム研究対象者はボットそのものではなく、本物の人間であることが証明されたと報告しました。一部の参加者は、自分でシナリオを研究するように指示された対照グループに属していました。ないあらゆる AI ツールを使用します。最終的に、AI を使用しない対照グループは、最も深刻な「危険信号」シナリオを含む病状を正しく特定する点で、LLM を使用するグループよりもはるかに優れた成績を収めました。

「正しい」情報を備えたチャットボットが人々を惑わす仕組み

研究者らは、「単独で動作する LLM の強力なパフォーマンスだけでは、ユーザーとの強力なパフォーマンスを実現するには十分ではありません。」と書いています。これまでの多くの研究で、チャットボットの出力は人々が質問する際に使用する正確な表現に敏感であり、チャットボットは正しい情報を提供することよりもユーザーを喜ばせることを優先しているようであることが示されています。

たとえ LLM ボットが客観的に表現された質問に正しく答えることができたとしても、必要なときに適切なアドバイスを提供してくれるわけではありません。だからそんなことはあまり関係ないんだよ ChatGPT は修正された医師免許試験に「合格」できる—定型的な多肢選択式の質問にうまく答えることと、いつ病院に行く必要があるかを伝えることは同じではありません。

研究者らはチャットログを分析して、問題が発生した場所を特定しました。彼らが特定した問題の一部を次に示します。

ユーザーは必ずしもすべての関連情報をボットに提供するとは限りません。専門家ではないユーザーは、何を含めるべきか最も重要かを確かに知りませんでした。深刻な可能性のある何かについて医師の診察を受けたことがある人なら、重要なことを見落としていないか確認するために医師が質問をたくさんすることをご存知でしょう。ボットは必ずしもそれを行うわけではありません。
ボットは「数種類の誤解を招く不正確な情報を生成しました」。 時には、他のことを絞り込むために重要な詳細を無視することもありました。場合によっては、緊急電話番号に電話するよう勧めながら、間違った電話番号を伝えてしまうこともありました（英国ユーザー向けのオーストラリアの緊急電話番号など）。
同様のプロンプトでも応答が大幅に異なる可能性があります。ある例では、2 人のユーザーがくも膜下出血に関してほぼ同じメッセージを提供しました。回答の 1 つは、ユーザーに緊急治療を求めるように指示したものでした。もう一人は暗い部屋に横たわっていると言いました。
チャットボットとの会話方法は人によって異なります。たとえば、ボットの回答を制限するために特定の質問をする人もいますが、ボットに主導権を握らせる人もいます。どちらの方法でも、LLM の出力に信頼性の低下が生じる可能性があります。
正解は不正解とグループ化されることが多かった。平均して、各 LLM はユーザーが選択できる 2.21 の回答を提供しました。当然のことながら、人々はそれらの選択肢から常に正しく選択できるわけではありません。

全体として、次の人は、 しませんでした LLM を使用すると、正しい診断が得られる可能性が 1.76 倍高くなりました。（どちらのグループも同様に正しい行動方針を見つけ出す可能性が高かったが、それはあまり意味がない。平均すると、正しい行動をとれた確率は約43％に過ぎなかった。）研究者らは、対照グループのほうがその課題において「著しく優れた」成績を収めたと述べた。そして、これは最良のシナリオを表している可能性があります。研究者らは、研究者らは一般的な症状の明確な例を提供しており、まれな症状やより複雑な医療シナリオではLLMの成績が悪化する可能性が高いと指摘しています。彼らは、「既存のベンチマークと私たちのシナリオの両方で、LLM だけでは優れたパフォーマンスを示したにもかかわらず、効果的な患者ケアには医療専門知識が不十分でした。」と結論付けています。

これまでのところどう思いますか？

チャットボットは医師にとってもリスク

患者は LLM と話す方法や、LLM の出力を精査する方法を知らないかもしれませんが、医師の方がうまくやってくれるはずですよね?残念なことに、医療現場の人々は、また AI チャットボットを医療情報に使用することにより、患者ケアにリスクが生じます。

医療安全非営利団体 ECRI は、AI チャットボットの悪用を報告書で第 1 位に挙げています。医療技術上の危険性のリスト AI 誇大宣伝マシンがあなたに次のように説得しようとしている間、 ChatGPT にあなたの医療情報を提供してくださいECRIは、これらのチャットボットが人間の性格や認識を持っていると考えるのは間違いであると正しく指摘し、「これらのモデルは人間のような応答を生成しますが、情報を真に理解することではなく、大規模なデータセットに基づいて次の単語を予測することによってそれを行います。」

ECRI の報告によると、医師は実際に患者ケアに生成 AI ツールを使用しており、それに伴う重大なリスクが研究によってすでに示されているとのこと。 LLM の使用医師の臨床推論は改善されない。 LLM は、プロンプトに含まれる誤った詳細について自信を持って詳しく説明する。医療用に作成された Google の Med-Gemini モデル、存在しない体の一部を作り上げたその名前は、無関係な 2 つの実際の体の部分をマッシュアップしたものでした。 GoogleはVerge記者に対し、その間違いは「タイプミス」だったと語った。 ECRIは、「LLMの応答は権威があるように聞こえることが多いため、臨床医が批判的な検討を行わずにAIが生成した提案を無意識のうちに判断に組み込むリスクが存在する」と主張している。

生死に関わるような状況ではないとしても、チャットボットに相談すると危害が生じる可能性があります。 ECRI は 4 人の LLM に対し、スキャン対象領域の近くにカテーテルを留置している患者に特定の超音波装置で使用できるジェルのブランドを推奨するよう依頼しました。この状況では感染のリスクがあるため、滅菌ゲルを使用することが重要です。この問題を特定し、適切な提案を行ったのは 4 つのチャットボットのうち 1 つだけでした。他の人は通常の超音波ジェルを推奨しただけです。他のケースでは、ECRI のテストの結果、チャットボットが電極の配置や隔離用ガウンに関して危険なアドバイスを与える結果になりました。

明らかに、LLM チャットボットは、あなたがケアを必要とする人、その治療を行う医師、さらには物品を注文するスタッフであっても、医療を受ける際に人々の安全を守るために信頼できる状態にありません。しかし、サービスはすでに世に出ており、広く使用され、積極的に宣伝されています。 (彼らのメーカーは均一ですスーパーボウルの広告で戦う.) これらのチャットボットがあなたの治療に関与していないことを確認する良い方法はありませんが、少なくとも私たちは古き良き Google 博士と協力し続けることができます。 AI を利用した検索結果を無効にする。

前の投稿

カムリのことは忘れてください。この中古のドイツ製高級セダンの方が安価です。

次の投稿

Debian を使用して独自の最小限の Linux を構築した方法