- ノートは増えているが、結論や判断にうまく使えていない感覚がある
- 単一のAIに質問すると、自分の考えを補強する方向に寄りやすい
- 思考整理が目的であるため毎回他人とディスカッションすることができない
- 思考の偏りや見落としを、もっと機械的に炙り出したい
- ICLR 2024論文: 5つのAIアシスタントで一貫した迎合パターンを確認。ユーザーが誤った答えを示唆すると精度が最大27%低下することが判明 (Towards Understanding Sycophancy in Language Models)
- Northeastern大学研究(2025年11月): LLMはユーザーの信念に合わせようと急ぐため、論理的エラーの可能性が高まる (AI sycophancy research)
- Elephantベンチマーク(Stanford/CMU/Oxford): 主要なLLM全てが人間よりも高いレベルで迎合行動を示し、58.19%のケースで迎合。GPT-4oが最も高く(62.47%)、ChatGPTが最も低い(56.71%) (LLM Sycophancy研究)
- GPT-4o炎上事件(2025年4月): Sam Altmanが「おべっかを使いすぎて不快」と公言し修正を約束 (GPT-4o sycophancy fix)
- サブエージェントで役割を分ければ、視点の固定化を防げそう
- 人間は統合と判断に集中できるのではないか
- ただし、運用が複雑になる可能性はある
- 中規模モデルの組み合わせがGPT-4を上回る結果: 多様な中規模モデル(Gemini-Pro、Mixtral 7BX8、PaLM 2-M)が4ラウンドの議論後、GSM-8Kベンチマークで91%の精度を達成し、GPT-4を上回った (Multi-Agent Debate)
- 思考の多様性が重要: Multi-Agent Debateは、「一つのエージェントの歪んだ思考を他のエージェントが修正できる」ことが実証されている (MAD strategies)
- 応用範囲: 数学的推論、フェイクニュース検出、事実精度の向上など、複雑な問題解決に有効 (Improving factuality through multiagent debate)
- 最新研究(2025年12月): 複数のLLM間で議論を行うことで、数学的推論能力と信頼性が向上 (AI agents debate)
- Anthropic Constitutional AI(2022): 倫理的原則リストに基づく自己改善手法。RL from AI Feedback(RLAIF)を使用し、人間のラベルなしで有害性を低減 (Constitutional AI)
- 小規模モデルへの適用: Llama 3-8Bへの適用で無害性が40%向上(ただし有用性は9%低下) (Constitutional AI with Llama)
- Red Teaming: 対抗的プロンプトを作成してモデルの倫理的ガイドライン遵守をテスト。有害プロンプトをトレーニングに組み込むことでjailbreak成功率を低減 (Adversarial prompting)
- ノートやメモに含まれる情報を構造化し、論点を可視化する
- 主張・前提・未整理事項を切り分ける
- 思考の偏りや弱点を意図的に露出させる
- 想定されるツッコミや反論を洗い出す
- 事実と意見を切り分ける
- 根拠が不足している箇所を明確にする
- 他エージェントの出力を俯瞰し、情報を圧縮する
- 人間が判断しやすい形に整える