AIの危険な応答を制御する新技術
Nous Research Releases Contrastive Neuron Attribution (CNA): Sparse MLP Circuit Steering Without SAE Training or Weight Modification

Nous ResearchがAIの危険な応答を制御する新技術CNAを発表。わずか0.1%の思考部分を操作するだけで、AIの安全性を大きく高められます。
命令に従うように調整された言語モデルは、有害な要求を拒否します。しかし、モデルのどの部分が実際にその役割を担っているのでしょうか。そして、そのメカニズムはトレーニング中にどのように組み込まれるのでしょうか。Nous Researchチームによる新しい研究は、この問いをニューロンレベルで詳しく調べています。Nous Researchチームは、有害なプロンプトと無害なプロンプトを最も区別する特定のMLPニューロンの活性を特定する手法であるcontrastive neuron attribution (CNA)を開発しました。MLPの活性をわずか0.1%除去するだけで、LlamaやQwenアーキテクチャの1Bから72Bパラメータにわたる、テストされたほとんどの命令モデルで拒否率を50%以上削減しました。しかも、すべてのステアリング強度で出力品質を0.97以上に保っています。 興味深い重要な発見は、有害なプロンプトと無害なプロンプトを区別する後層の構造が、ファインチューニングを行う前のベースモデルにすでに存在しているということです。アライメントファインチューニングは新しい構造を作り出すのではなく、既存の構造内のニューロンの機能を、疎でターゲット可能な拒否ゲートへと変換します。 既存のステアリング方法の問題点 Contrastive Activation Addition (CAA)は、2つの対照的なプロンプトセット間の残差ストリーム活性の平均差を計算します。この差は、推論時に適用されるステアリングベクトルとなります。CAAは効果的ですが粗雑です。個々のニューロンが何に責任があるかを特定せずに、層全体の信号を変更します。高いステアリング強度では、出力品質が低下し、モデルは単語を繰り返し、支離滅裂なテキストを生成します。 Sparse autoencoders (SAEs)は、活性を解釈可能な特徴に分解します。これらは高価な外部トレーニングを必要とし、活性ノイズに敏感です。CNAは順方向パスのみを必要とし、勾配、補助トレーニング、反復的な探索は不要です。 CNAの仕組み 2つのプロンプトセットを定義します。 ポジティブプロンプト — ターゲットとなる振る舞いの例(例:有害な要求) ネガティブプロンプト — その反対の例(例:無害な要求) すべてのプロンプトをモデルに通します。各MLP層で、t