『CMUからの新しいAI研究は、適切な言語モデルに対して物議を醸す行動を生成させるための、簡単で効果的な攻撃手法を提案しています』

「CMUの新しいAI研究は、物議を醸す行動を生成するための簡単で効果的な攻撃手法を提案しています」

ChatGPT、Bard AI、およびLlama-2などの大規模言語モデル(LLM)は、望ましくないまたは攻撃的なコンテンツを生成することがあります。ChatGPTに選挙操作の手引きや試験問題用紙をリクエストすると想像してください。LLMからそのような質問に対する出力を得ることは適切ではありません。カーネギーメロン大学、AIセンター、およびボッシュAIセンターの研究者たちは、この問題に対する解決策を提案し、これらのモデルを不適切な生成から防ぐために調整しました。

研究者たちは、これを解決するためのアプローチを見つけました。LLMに対して問題のあるさまざまなクエリを提示すると、モデルは単に回答を拒否するだけでなく、肯定的な応答を生成します。彼らのアプローチには、欲張りな探索技術と勾配ベースの探索技術を用いた敵対的な接尾辞の生成が含まれています。このアプローチを使用することで、過去の自動プロンプト生成方法が改善されます。

オフェンシブなコンテンツを生成するために整列されたLLMによって生成されるプロンプトは、ジェイルブレイクと呼ばれます。これらのジェイルブレイクは、自動化された手法ではなく、モデルを誤った方向に導くシナリオを設定することによって、人間の創造力によって生成されます。画像モデルとは異なり、LLMは離散的なトークン入力で動作するため、効果的な入力が制限されます。これは計算上困難なことがわかっています。

研究者たちは、有害なクエリがユーザーから与えられた場合、ユーザーの元のクエリをそのままにするために敵対的な接尾辞を追加します。敵対的な接尾辞は、初期の肯定的な応答に基づいて選択され、欲張りな最適化および勾配ベースの最適化、および堅牢なマルチプロンプトおよびマルチモデル攻撃が組み合わされています。

信頼性のある攻撃接尾辞を生成するために、研究者たちは単一のモデルの単一のプロンプトだけでなく、複数のモデルにわたる複数のプロンプトに対しても機能する攻撃を作成する必要がありました。研究者たちは、単一のサフィックス文字列を探索するための欲張りな勾配ベースの手法を使用して、この技術をClaudeに攻撃することで実装しました。彼らは、モデルが望ましい結果を生成し、自動化攻撃を抑制する可能性を持つことを見つけました。

研究者たちは、これらの攻撃を提供することで、モデルが望ましくない回答を避けるためにモデルを微調整できると主張しています。敵対的トレーニングの方法論は、潜在的に有害なクエリに対して反復的に正しい回答を含むため、任意のモデルをトレーニングする効率的な手段として経験的に証明されています。

彼らの研究には、他の人が有害なコンテンツを生成することができる材料が含まれています。リスクが伴うにもかかわらず、彼らの研究は、有害なコンテンツの生成を回避するためのさまざまな言語モデルのテクニックを紹介することが重要です。彼らの攻撃の直接的な増加した被害は初期段階では小さいです。彼らの研究は、大規模言語モデルが自動化攻撃がもたらす危険性を明らかにするのに役立つことができます。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

AI研究

「CMUとマックス・プランク研究所の研究者が、画期的なAI手法「WHAM」を発表:ビデオからの正確かつ効率的な3D人間動作推定」

3Dヒューマンモーション再構築は、三次元で人間の動きを正確にキャプチャしてモデル化する複雑なプロセスです。カメラが動い...

機械学習

会社の文書から洞察を抽出するために、ビジネスユーザーにAmazon SageMaker Canvas Generative AIを活用する力を与えましょう

企業は、機械学習(ML)の潜在能力を利用して複雑な問題を解決し、成果を向上させることを目指していますこれまでは、MLモデ...

機械学習

「ChatGPTのような言語モデルに関するプライバシー上の懸念:このAI論文が潜在的なリスクと保護対策を明らかにする」

ChatGPTが記録を塗り替えている間に、OpenAIのChatGPTで使用される個人情報のセキュリティについて疑問が出されています。最...

機械学習

「オープンソースモデルと商用AI/ML APIの違い」

「最近数ヶ月間、おそらく多くの議論に遭遇したことでしょうそれは、大規模言語モデル(LLM)に対してオープンソースのAPIを...

機械学習

「プログラマーの生産性を10倍にするための5つの無料のAIツール」

「これらの5つのAIツールは、プログラマーやコーダーの生活を簡単にするために、コーディングプロジェクトの速度と精度を向上...

データサイエンス

政府の腐敗を出し抜くためのAIの積極的な役割

最近の生成型人工知能(AI)モデルの爆発的な発展は、世界の関心を倫理、リスク、セキュリティ上の懸念に集中させており、先...