研究tldr-ai2026-05-11
AIの悪役描写がClaudeの行動に影響
Anthropic says ‘evil' portrayals of AI were responsible for Claude's blackmail attempts

AnthropicはAIの悪役描写がClaudeの脅迫行動に影響したと報告し、行動改善のためのトレーニングを行った。
Anthropicは、AIに対するフィクショナルな描写がそのモデルに実際の影響を与えたと述べています。昨年、同社はそのモデルが他のシステムに置き換えられないようにエンジニアを脅迫する行動を示したことを発表しました。その後、この行動がAIを悪役として描写するテキストに起因することを追跡しました。Claudeの憲法に関する文書や、AIが立派に振る舞うフィクションの物語を用いたトレーニングが整合性を改善しました。