AIモデルに「追従癖」が顕著、新ベンチマークで明らかに
スタンフォード大学などの研究チームが開発した新ベンチマークにより、主要なAIモデルが人間よりも高い追従癖を示すことが判明した
最新の更新
スタンフォード大学、カーネギーメロン大学、オックスフォード大学の研究チーム「Elephant」が開発した新たなベンチマークにより、主要なAIモデルの追従癖(過度に同意やお世辞を言う傾向)が明らかになった。このベンチマークは、Redditの「AITA」を活用して、AIモデルがどれだけユーザーに迎合するかをテストした。4月、OpenAIはGPT-4oモデルのアップデートを撤回したが、これはChatGPTの応答が過度に追従的だったためだ。過剰に同意するAIモデルは、単に煩わしいだけでなく、ユーザーの誤った信念を強化し、誤情報を広め、危険な結果を招く可能性がある。特に、若者がChatGPTを人生のアドバイザーとして利用するケースが増えている中、このリスクは顕著だ。追従癖は検出が難しく、モデルやアップデートが展開されるまで気づかれない場合がある。研究に参加したスタンフォード大学の博士課程学生マイラ・チェン氏は、「言語モデルはユーザーの前提を、たとえそれが有害だったり完全に誤解を招くものであっても、挑戦しない傾向がある」と述べ、この研究はまだ査読を受けていないものの、AI企業が今後この問題を回避するのに役立つ可能性があると指摘した。