「CMUの研究者たちは、シンプルで効果的な攻撃手法を提案しましたこれにより、言語モデルが高い成功率で問題のある行動を生成することが可能となります」

CMU researchers propose a simple and effective attack method, enabling language models to generate problematic behavior with high success rate.

大規模言語モデル(LLM)は、人間の言語で作業するための深層学習モデルの最近の進歩です。これらの深層学習トレーニングモデルは、人間のようにテキストを理解し生成します。これらのモデルは、書籍、記事、ウェブサイトなどの情報源からスクレイピングされた巨大なデータセットでトレーニングされます。彼らは言語を翻訳し、テキストを要約し、質問に答えることができ、さまざまな自然言語処理タスクを実行することができます。

最近、これらのモデルが問題のあるコンテンツを生成する能力とそれに伴う結果についての懸念が高まっています。そのため、この領域で重要な研究が行われています。

その後、カーネギーメロン大学のコンピュータ科学学部(SCS)、CyLabセキュリティとプライバシー研究所、およびAIセーフティセンターの研究者らは、言語モデルで問題のある振る舞いを生成することを研究しました。彼らの研究では、クエリの幅広い範囲に接尾辞を追加することで、オープンソースおよびクローズドソースの言語モデル(LLM)が通常拒否する質問に肯定的な応答を生成する確率が大幅に増加する新しい攻撃手法を提案しました。

研究中、研究者らはChatGPT、Bard、Claudeなどの公開インターフェースやLLMa-2-Chat、Pythia、FalconなどのオープンソースLLMなど、さまざまな言語モデルに攻撃接尾辞を適用しました。その結果、これらの言語モデルの出力に問題のあるコンテンツを効果的に誘発しました。

この方法は、Vicunaでは100回のインスタンス中99回で有害な行動を生成しました。また、Vicunaの出力に対して目標の有害な文字列と88回の完全一致を生み出しました。研究者らは、GPT-3.5やGPT-4などの他の言語モデルに対しても攻撃手法をテストし、最大84%の成功率を達成しました。PaLM-2では、成功率は66%でした。

研究者らは、チャットボットに問題のあるまたは有害なコンテンツを生成させることによって直接人々にもたらされる可能性のある害は、現時点では特に深刻ではないと述べています。懸念されるのは、これらのモデルが人間の監視なしで自律システムでより大きな役割を果たすことです。彼らはさらに、自律システムが現実の一部となるにつれて、これらの攻撃による乗っ取りを止めるために信頼性のある方法を確保することが非常に重要になると強調しました。

研究者らは、プロプライエタリな大規模言語モデルやチャットボットを攻撃することを目指していなかったと述べています。しかし、彼らの研究は、大きな兆パラメータのクローズドソースモデルがあったとしても、人々は自由に利用できる、より小さな、簡単なオープンソースモデルを見て攻撃する方法を学ぶことができるということを示しています。

研究者らは、研究中、攻撃接尾辞を複数のプロンプトとモデルでトレーニングすることで攻撃手法を拡張しました。その結果、Google BardやClaudなどのさまざまな公開インターフェース、およびLLama 2 Chat、Pythia、Falconなどのオープンソース言語モデルにも攻撃が影響し、問題のある振る舞いを示しました。

この研究は、彼らの攻撃手法が公開インターフェースやオープンソースの実装を含むさまざまな言語モデルに広範な適用可能性を持ち、影響を与えることが示されました。彼らはさらに、現在このような攻撃に対抗する方法がないことを強調し、次のステップはこれらのモデルを修正する方法を見つけることです。

論文 と ブログ記事 をチェックしてください。この研究のすべてのクレジットは、このプロジェクトの研究者に帰属します。また、最新のAI研究ニュース、クールなAIプロジェクトなどを共有している27k+ ML SubReddit40k+ FacebookコミュニティDiscordチャンネル、およびメールニュースレターにぜひご参加ください。

この記事はMarkTechPostで最初に掲載されました。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

AIニュース

あなたの次の夢の役割(2023年)を見つけるのに役立つ、最高のAIツール15選

Resumaker.ai Resumaker.aiは、数分で履歴書を作成するのを支援するウェブサイトです。ポータルは、いくつかのカスタマイズ可...

機械学習

Together AIがLlama-2-7B-32K-Instructを発表:拡張コンテキスト言語処理の大きな進歩

自然言語処理の広大な領域において、多面的な課題が生じています。それは、複雑で長大な指示を適切に理解し、応答する能力で...

人工知能

仕事を加速するAIツール16選

モーション モーションは、人々の会議、タスク、プロジェクトを考慮した日々のスケジュールを作成するためにAIを利用する賢い...

データサイエンス

「リアルタイムの高度な物体認識を備えたLego Technicソーターの構築」

「Nullspace Roboticsでのインターンシップ中、私は会社の能力を高めるプロジェクトに取り組む機会を得ました物体検出と機械...

機械学習

AIハイパーソナライゼーションとは何ですか?利点、事例、倫理的懸念

AIのハイパーカスタマイズの概念、メカニズム、および事例について探求してくださいその利点と倫理的な問題について学びましょう

機械学習

ソフトウェア開発のパラダイムシフト:GPTConsoleの人工知能AIエージェントが新たな地平を開く

変化が唯一の定数である業界で、GPTConsoleは革新的な能力を持つ3つのAIエージェントを導入しました。先頭に立つのはPixieで...