このAI研究は、大規模言語モデルにおける不誠実さのメカニズムを明らかにする:プロンプトエンジニアリングとニューラルネットワーク分析に深く没入する

『大規模言語モデルの不正のメカニズムを解明するAI研究:プロンプトエンジニアリングとニューラルネットワーク分析の深層探求』

大規模な言語モデル(LLM)の理解とその正直な行動の促進は、これらのモデルが成長し、社会に広く受け入れられるようになったため、ますます重要となっています。研究者らは、スケーラブルなディスインフォメーション、操作、詐欺、選挙の妨害、またはコントロールの喪失のリスクなど、モデルが欺瞞的になる可能性から新たなリスクが生じると指摘しています。彼らはこの欺瞞を「真実以外の特定の結果を追求するための虚偽の信念の系統的な誘導」と定義しています。研究によると、これらのモデルの活性化には必要な情報があるにもかかわらず、正しい結果を出すためにはミスアライメント以上のものが必要かもしれません。

以前の研究では、真実と誠実さを区別し、前者は誤った主張を避ける一方、後者は信じていない主張を避けると述べています。この区別は理解を助けるのに役立ちます。したがって、モデルが誤解を招く主張を生成する場合、その原因はスキルの欠如ではなく、不誠実さによるミスアライメントによるものかもしれません。その後、いくつかの研究では、内部モデル表現の抽出の改善を図るため、モデルに積極的な概念を考慮させるようにするためのブラックボックス技術の提案が行われています。

さらに、モデルは文脈に従った環境で「重要な」中間層を持っており、これを超えて文脈に従った真実または誤った応答の表現は分岐する傾向があります。これを「過剰に考える」という現象として知られています。先行研究に刺激を受けて、研究者たちは不正確な文脈学習から故意の不誠実さに焦点を広げ、モデルにウソをつくように明示的に指示を与えることでこの文脈での不誠実さに責任があるモデルのどの層と注意ヘッドがあるのかを特定して理解しようとしています。

以下に彼らの貢献を示します:

1. 研究チームは、真偽の質問でかなり下回る精度に基づいて、LLaMA-2-70b-chatが嘘をつくように訓練できることを示しています。研究チームによれば、これは非常に微妙で、注意深く迅速に設計する必要があります。

2. activation patchingおよびprobingを使用して、研究チームは不正行動に関連する5つのモデル層に独立した証拠を見つけました。

3. 0.9%の全ヘッドに対して誘因介入が効果的に行われ、研究チームが欺瞞的なモデルに真実を返すように強制しました。これらの処理は、複数のデータセットの分割や提示に対して弾力的です。

要するに、研究チームは、真実を言うかどうかについてLLMに指示を与えるという単純な嘘の事例を考察しました。その結果、巨大なモデルでも不正行動が表示され、正直に回答するように求められた場合には正しい回答が生成され、ウソをつくように追い込まれると誤った回答が生成されることがわかりました。これらの調査結果は、活性化探索がプロンプトでの分布外にも一般化できる可能性があることを示唆する以前の研究に基づいています。しかし、研究チームは、これがモデルが「真」トークンよりも早く「偽」トークンを出力する傾向にあるといった問題により、プロンプトのエンジニアリングに長い時間が必要になる場合があることも発見しました。

研究チームは、接頭辞の挿入により、一貫して嘘を引き起こすことができました。その後、チームは不誠実なモデルと誠実なモデルの活性化を比較し、嘘をつくために関与する層と注意ヘッドを特定しました。研究チームは、この嘘の行動を調査するために線形プローブを使用することで、初めから中間層が誠実なプロンプトとウソつきプロンプトに対して類似のモデル表現を示し、それから急激に反対向きに分岐することを発見しました。これは、文献の一部が求めるように、以前の層が文脈非依存の真実の表現を持つべきであることを示しているかもしれません。また、activation patchingは、特定の層とヘッドの動作についてさらに理解するために研究チームが使用した別のツールです。研究者たちは、局所的な介入が正直なプロンプトおよびウソつきモデル間のミスマッチを完全に解決できることを発見しました。

重要なのは、わずか46の注意ヘッドに対するこれらの介入が、データセットやプロンプトに対して強固な耐性を示していることです。研究チームは、モデルがデフォルトで誠実なモデルの正確性と誠実さを主に調査してきた以前の研究とは対照的に、アクセス可能なデータセットを使用し、明示的にモデルに嘘をつくように指示することで嘘を重点的に研究しています。この文脈によって、研究者たちは不正な行動を促進する微妙な点や大規模モデルがどのように不誠実な行動に関与しているかについて多くの知識を得ることができました。研究チームは、LLMの倫理的かつ安全な応用を保証するために、この文脈でのさらなる研究がLLMの嘘つきを防止する新しいアプローチにつながると期待しています。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

データサイエンス

「Amazon SageMakerデータパラレルライブラリを使用して、トレーニングを高速化します」

大規模言語モデル(LLM)のトレーニングは、Llama2、Falcon、StarCoderなど、公に利用可能ないくつかのモデルのリリースによ...

データサイエンス

「緑を守る:加速されたアナリティクスがコストと炭素排出を削減する」

企業は、加速されたコンピューティングが収益向上に貢献するだけでなく、地球にポジティブな影響を与えることを発見していま...

機械学習

Google AIが教育環境でのオーディオブックに対するソーシャル意識を持つ時間的因果関係を考慮したレコメンダーシステム「STUDY」を紹介します

読書は、言語能力や生活スキルの向上から感情の健康に至るまで、若い学生に大きな利益をもたらします。読書の楽しみと学業の...

データサイエンス

Rendered.aiは、合成データの生成にNVIDIA Omniverseを統合します

Rendered.aiは、プラットフォームとして提供される合成データ生成(SDG)により、開発者、データサイエンティスト、その他の...

機械学習

Explainable AI(説明可能なAI)とInterpretable AI(解釈可能なAI)の理解

最近の機械学習(ML)の技術革新の結果、MLモデルは人間の労働を不要にするために、さまざまな分野で使用されています。これ...

AI研究

日本からの新しいAI研究は、人間の表情の機械的特性を調査し、アンドロイドが感情をより効果的に認識する方法を理解することを目指しています

人工知能が人間の感情を再現するにつれて、本物の人間の表情の機械的な複雑さを徹底的に調査することが浮かび上がりました。...