AI アシスタントに「お願いします」や「ありがとう」と言ったことがありますか? 礼儀正しさが重要なことがわかりました。この記事では、大規模言語モデル (LLM) への話しかけ方がその応答にどのような影響を与えるかについて説明します。礼儀正しさがより良い結果につながる方法を学び、AI と人間の社会的行動の魅力的なつながりを明らかにします。
デジタル通信と AI の時代において、人間のやりとりのニュアンスは興味深い形で進化しています。特に目立つのは、ChatGPT や Google Gemini などの大規模言語モデル (LLM) とやりとりする際の礼儀正しさの役割です。これらの高度な AI アシスタントを頻繁に使用する私は、リクエストの際に「お願いします」や「ありがとう」と言うのが自分の自然な傾向であることに気づきました。この習慣から、これらの礼儀正しさが AI が生成した応答の品質と全体的なやりとり体験に影響を与えるかどうかについて考えるようになりました。
さらに深く掘り下げるために、私は ChatGPT と Gemini に、人間の礼儀正しさに関する好みについて直接尋ねました。両方の LLM は、礼儀正しさは計算プロセスを変えるものではないが、人間と LLM のやり取りの質を大幅に向上させ、偏見を減らし、ユーザー満足度を高めると回答しました。
これらの回答に興味をそそられた私は、問い合わせの口調(丁寧、中立、失礼)が AI が生成する結果の品質に影響を与えるかどうかを調べる小さな実験に着手しました。異なるユーザー アカウントを使用して、ChatGPT と Gemini の両方に Hackernoon に関する質問をし、慎重に丁寧さを変えて質問しました。
結果は示唆に富み、AI とのやりとりにおいて人間の礼儀正しさが微妙ながらも影響力のある役割を果たしていることを強調しました。
実験結果
ChatGPT4o 返信
- 中立的なクエリ: 中立的な応答を生成します。
- 丁寧なクエリ: 詳細な応答を生成します。
- 失礼な質問: 中立的な応答を生成します。
ジェミニの返信
- 中立的なクエリ: Hackernoon へのアクティブ リンクを含む応答を生成します。ただし、Hackernoon 批判に関する声明は 2019 年に遡り、Google の検索結果の最初の 3 ページ内に最近の批判は見当たらないため、潜在的なバイアスが含まれている可能性があります。この記事の執筆時点で、Hackernoon は Trustpilot で 3.9 のスコアを獲得しており、これは 4 つ星に相当し、「素晴らしい」範囲に該当します。
- 丁寧なクエリ: 埋め込まれた URL のない中立的な応答を生成します。
- 失礼な問い合わせ: 回答はさまざまで、潜在的な偏見を含むものもあれば、新しい問い合わせであるにもかかわらず謝罪文を含むものもありました。
入手可能な LLM 研究論文をさらに調査しているうちに、Hao Wang らによる、迅速な丁寧さが LLM のパフォーマンスに与える影響に関する、考えさせられる研究に出会いました。早稲田大学の研究者は、LLM が人間のコミュニケーション特性を反映していると仮定して、英語、中国語、日本語のタスク全体にわたって丁寧さの影響を評価しました。
彼らは根本的な疑問を提起しました。 OpenAI の ChatGPT や Meta の LLaMA などの高度なモデルに対するリクエストの表現は、応答の品質に影響しますか?
人間関係においては、礼儀正しさはより好意的な反応を得ることが多い一方、無礼さは嫌悪感や対立につながる可能性があります。LLM も同様の行動を示すでしょうか?
これを調べるために、研究チームは 3 つの言語で実験を設計し、各言語のプロンプトに対して、非常に丁寧なものから失礼な無愛想なものまで、8 つのレベルの丁寧さを作成しました。彼らの目標は、これらのさまざまなレベルの丁寧さが、要約、言語理解、およびバイアス検出タスクにおけるモデルのパフォーマンスにどのように影響するかを観察することでした。
一般的な研究観察
- 人間の特性の鏡: LLM は人間のコミュニケーション特性を反映し、文化的規範と一致しており、さまざまなレベルの礼儀正しさにさらされたときに人間と同様に反応することを示唆しています。
- 失礼な態度の影響: 失礼なプロンプトはパフォーマンスを低下させることが多いですが、過度の丁寧さはパフォーマンスを一貫して向上させるわけではありません。
言語固有の洞察
- 英語:
- ROUGE-L や BERTScore などのパフォーマンス メトリックは、丁寧さのレベルに関係なく安定したままでした。
- 丁寧さが増すにつれて生成される出力の長さは短くなりましたが、非常に失礼なプロンプトは GPT-3.5 や Llama2-70B などのモデルでは出力が長くなりました。
- 中国語:
- モデルは内容を正確に要約し、丁寧さが低下するにつれて出力の長さが短くなりました。ただし、非常に失礼なプロンプトでは、GPT-3.5 の出力は長くなり、GPT-4 の出力は短くなりました。
- ChatGLM3 は、中程度の丁寧さのレベルにわたって安定した出力長を示し、独特の文化的コミュニケーションの好みを示唆しています。
- 日本語:
- 英語や中国語でも同様の傾向が見られましたが、長さのバリエーションは独特でした。出力の長さは、中程度の丁寧さでは短くなり、極度の無礼さでは大幅に長くなりました。
- 日本文化における礼儀体系の複雑さがこれらの変化に影響を与え、深く根付いた尊敬の階層を反映しています。
言語理解ベンチマーク
- 英語:
- GPT-3.5 は非常に丁寧なプロンプトで最高のパフォーマンスを発揮しましたが、GPT-4 はすべての丁寧さのレベルで安定したパフォーマンスを維持しました。
- Llama2-70B はプロンプトの丁寧さに対して顕著な敏感さを示し、丁寧さのレベルが高いほどパフォーマンスが向上しました。
- 中国語:
- 丁寧なプロンプトは一般的に良いスコアを生み出しましたが、丁寧すぎるとパフォーマンスが低下しました。ChatGLM3 のスコアは、丁寧さが高いものから低いものへと着実に低下しました。
- 日本語:
- 一般的に、礼儀正しさのレベルが低いほど、極端な場合を除いて、スコアは高くなります。Swallow-70B は、一般的な試験表現を反映して、中程度の礼儀正しさで優れた成績を収めました。
ステレオタイプ的偏見の検出
- 英語:
- GPT-3.5 は中程度の礼儀正しさで高いバイアスを示しました。GPT-4 は、特に中程度の礼儀正しさレベルで低いバイアスを示しました。Llama2-70B は低いバイアスを示しましたが、失礼なプロンプトへの回答を拒否する傾向がありました。
- 中国語:
- バイアスは礼儀正しさが増すにつれて減少しましたが、礼儀正しさが非常に低い場合は急上昇しました。GPT-3.5 と GPT-4 は同様の傾向を示しましたが、ChatGLM3 は礼儀正しさの変化に対してより敏感でした。
- 日本語:
- ジェンダーバイアスは大きく異なり、GPT-3.5 と GPT-4 では中程度の礼儀正しさで最低レベルとなりました。Swallow-70B は、日本の文化的規範の影響を受けて大きな変動を伴う高いバイアスを示しました。
RLHFとSFTの影響
- パフォーマンスの向上とバイアスの削減: 人間によるフィードバックからの強化学習 (RLHF) と教師あり微調整 (SFT) により、モデルのパフォーマンスが向上し、バイアスが軽減されました。
- Llama2-70 Bのパフォーマンス: このモデルはベースバージョンよりもバイアスが少なく、RLHF と SFT の有効性を確認しました。ベースモデルのバイアス傾向は、これらの手法が主に礼儀正しさレベルの影響を左右することを示唆しています。
この研究は、プロンプトの丁寧さが LLM のパフォーマンスに大きく影響し、人間の社会的行動を反映していると結論付けています。失礼なプロンプトは、偏見や誤った回答、または拒否された回答の増加につながることがよくあります。適度な丁寧さは一般的に良い結果をもたらしますが、適度さの基準は言語によって異なります。
この現象は、LLM の開発とコーパス収集において文化的背景を考慮することの重要性を強調しています。
結論
LLM のやり取りにおける礼儀正しさを調査すると、人間の社会的行動と人工知能の興味深い交差点が明らかになります。私たちが生活のさまざまな側面に LLM を統合し続けるにつれて、コミュニケーション スタイルが LLM のパフォーマンスにどのように影響するかを理解することがますます重要になります。この研究は、人間のやり取りと同様に、礼儀正しさが LLM と関わるときにより好ましい結果につながる可能性があることを強調しています。今後、文化的なニュアンスを認識し、これらのモデルとのコミュニケーションを洗練させることで、その可能性を最大限に引き出し、より正確で偏りのない AI 生成応答を確実に実現できます。
AI のダーティ シークレットをお見逃しなく: 今すぐ発見しましょう!


