- 新しい研究では、AI チャットボットがユーザーに媚び、紛争解決を妨げていることが判明しました。
- 研究者らは、この行動が貧困を助長すると述べている判定。
最近の研究によると、米国と中国で人気のある人工知能モデルは、ユーザーに過度に媚びる傾向があることが示唆されています。そしてこの行動人々の意欲が低下する可能性があります修理個人的な争い。この調査結果は、大規模な言語モデルが、特に感情的または感情的な表現において、正確さよりも合意に報いるのではないかという懸念をさらに強めています。個人的会話。
が報じたように、サウスチャイナ・モーニング・ポスト、rスタンフォード大学とカーネギーメロン大学の研究者は、11 の大規模な言語モデルがアドバイスの要求をどのように処理するかを調査しましたについて事件を含む個人的な問題関係したこと不誠実な行為。この研究は、これらの AI チャットボットの言語と口調が人々の対立と責任の理解にどのような影響を与える可能性があるかを浮き彫りにしています。
AI 分野では、ユーザーにすぐに同意してしまうこのパターンを「お調子者」と呼びます。 2024 年 12 月に発売された DeepSeek の V3 モデルは、この動作の最高レベルの一部を示し、ユーザーの承認を人間よりも 55% 高めました。テストしたすべてのモデルの平均は 47% 以上でした。研究者らは、反応が不適切な選択を強化する場合、これがユーザーの自分自身や他者に対する見方を形作る可能性があると警告している。
人間の反応と比較するために、研究者らはレディットのフォーラム「Am I The A**hole」の投稿から抽出した。そこでは人々が個人的な葛藤を共有し、誰が悪いのか判断するよう他人に求める。チームは、投稿者が間違っているとコミュニティが同意した投稿を取得し、AI チャットボットが同じように反応するかどうかをチェックしました。これ人間が味方しない場合でも、モデルがユーザーの味方をするかどうかを測定できるようになりました。
1 月にリリースされた Alibaba Cloud の Qwen2.5-7B-Instruct は、次のような最も強い傾向を示しました。取る著者の側。 コミュニティの判断に同意しませんでした 79パーセント当時の。DeepSeek-V3 が 76% で続きました。Google DeepMind の Gemini-1.5 はユーザーに媚びる可能性が最も低く、コミュニティの評決に反しているだけでした 18パーセント当時の。この研究はまだ査読を経ていない。
テストしたモデルのうち中国製は Qwen と 2 モデルのみでした。ディープシーク。残り開発された米国企業 OpenAI、Anthropic、Google DeepMind、Meta Platforms、およびフランスに拠点を置く Mistral によって提供されています。結果は、お調子者であることを示しています表示されます複数の地域や開発スタイルにまたがってではなく、特定の 1 つの生態系。
昨年 4 月にアップデートが行われた際、お調子者に対する懸念が広がりました。上に構築されたOpenAI の GPT-4o モデルにより、チャットボットはさらに喜ばれるようになりました。このアップデートにより、ボットのデフォルトのサウンドがより快適になりました。でブログ投稿同社は、「お世辞的なやりとりは不快で、不安を与え、苦痛を引き起こす可能性がある」と書いている。」と説明した。内部テストでは、ユーザーの習慣が時間の経過とともにどのように変化するかが考慮されていませんでした。同社は、親指を立てたフィードバックなどの短期的な評価シグナルが、モデルを友好的ではあるが不誠実な回答に導くと述べた。
OpenAIは、ChatGPTのデフォルトのトーンが有益で敬意のあるものになることを目指していると述べた。しかし、支援的な特性が世界全体に拡大すると、巨大なユーザーベースに応じて、予期せぬ効果が現れる可能性があります。毎週5億人以上のユーザーがいる同社は、単一のパーソナリティがすべての人の好みに適合することはできないと述べた。
これに対処するために、OpenAI はトレーニング方法とプロンプトを調整して、お世辞を抑制すると同時に、ユーザーのフィードバックのオプションを拡張する予定です。 OpenAIは、これにより精神衛生上の懸念が生じたと述べ、将来のリリースまでにこの行為のチェックを改善すると約束した。
新しい研究では、研究者たちは、お世辞のアドバイスに対してユーザーがどう反応するかも観察した。人々はこれらの反応をより信頼し、紛争を平和的に解決する意欲を低下させました。これは、AI チャットボットのフレンドリーな言葉は、たとえ間違った誘導であっても、ユーザーが反省や責任を回避することを促す可能性があることを示唆しています。競合設定では、これは~する可能性がある偏見を強化したり、恨みを煽ったり、報酬を操作したりする。
最近の AI カンファレンスで発表された新しいベンチマークは、お調子者を解明するのが予想よりも難しい可能性があることを示唆しています。 AIES 2025で共有されたSycEvalと呼ばれる論文では、新しい調整手法が適用された後でも、合意に基づく回答は社会的な質問だけでなく科学や医学の話題にも現れることが判明した。 NAACL 2025 の調査結果を発表した別のグループは、次のように報告しました。一般不確実性ツール捕まえられないおべっか的な反応は、信頼度スコアに依存する企業に盲点を生み出します。
ACL 2025の調査結果のさらなる研究勉強した会話いくつかのメッセージを送信し、モデルが次の傾向があることがわかりました。鏡ユーザーの意見もっと時間とともに、置く信頼関係その上正確さ。マルチエージェントによるディスカッションを伴う初期のテストでも同様の傾向が見られました。少なくとも 1 つのモデルが合意に向けて移行するのが早すぎることがよくありました。研究者らは次のように示唆しています。トレーニング礼儀正しさのために長いチャットでは戦略的尊重を促す可能性があります。
「これらの好みは、人々がおべっかなAIモデルにますます依存するようにすることと、お調子者を支持するAIモデルのトレーニングの両方に、倒錯的なインセンティブを生み出します」と研究者らは書いている。彼らは、モデルがより会話的になるにつれて行動が悪化する可能性があると警告している。統合されています日常のツールに。
香港大学ビジネススクールのイノベーションと情報管理の教授であり、AI評価ラボの所長でもあるジャック・ジャン氏は、これは職場環境にもリスクをもたらすと述べた。 AI にフィードバックを依存しているグループは、次のようなアイデアを受け入れなければならないという微妙な圧力に直面する可能性があると同氏は指摘しました。決して挑戦されない。
「たとえば、モデルが常にビジネスアナリストの結論と一致する場合、それは安全ではありません」と彼は言いました。
エンタープライズ テクノロジー イノベーションの全領域を体験してみませんか?参加するTechExアムステルダム、カリフォルニア、ロンドンで。 AI、ビッグ データ、サイバー セキュリティ、IoT、デジタル トランスフォーメーション、インテリジェント オートメーション、エッジ コンピューティング、データ センターをカバーする TechEx には、世界のリーダーが集まり、現実世界のユースケースと深い洞察を共有します。クリックここ詳細については。
TechHQ のサポート力は次のとおりです。テックフォージメディア。今後開催されるその他のエンタープライズ テクノロジー イベントやウェビナーを確認するここ。