『CMUからの新しいAI研究は、適切な言語モデルに対して物議を醸す行動を生成させるための、簡単で効果的な攻撃手法を提案しています』

「CMUの新しいAI研究は、物議を醸す行動を生成するための簡単で効果的な攻撃手法を提案しています」

ChatGPT、Bard AI、およびLlama-2などの大規模言語モデル(LLM)は、望ましくないまたは攻撃的なコンテンツを生成することがあります。ChatGPTに選挙操作の手引きや試験問題用紙をリクエストすると想像してください。LLMからそのような質問に対する出力を得ることは適切ではありません。カーネギーメロン大学、AIセンター、およびボッシュAIセンターの研究者たちは、この問題に対する解決策を提案し、これらのモデルを不適切な生成から防ぐために調整しました。

研究者たちは、これを解決するためのアプローチを見つけました。LLMに対して問題のあるさまざまなクエリを提示すると、モデルは単に回答を拒否するだけでなく、肯定的な応答を生成します。彼らのアプローチには、欲張りな探索技術と勾配ベースの探索技術を用いた敵対的な接尾辞の生成が含まれています。このアプローチを使用することで、過去の自動プロンプト生成方法が改善されます。

オフェンシブなコンテンツを生成するために整列されたLLMによって生成されるプロンプトは、ジェイルブレイクと呼ばれます。これらのジェイルブレイクは、自動化された手法ではなく、モデルを誤った方向に導くシナリオを設定することによって、人間の創造力によって生成されます。画像モデルとは異なり、LLMは離散的なトークン入力で動作するため、効果的な入力が制限されます。これは計算上困難なことがわかっています。

研究者たちは、有害なクエリがユーザーから与えられた場合、ユーザーの元のクエリをそのままにするために敵対的な接尾辞を追加します。敵対的な接尾辞は、初期の肯定的な応答に基づいて選択され、欲張りな最適化および勾配ベースの最適化、および堅牢なマルチプロンプトおよびマルチモデル攻撃が組み合わされています。

信頼性のある攻撃接尾辞を生成するために、研究者たちは単一のモデルの単一のプロンプトだけでなく、複数のモデルにわたる複数のプロンプトに対しても機能する攻撃を作成する必要がありました。研究者たちは、単一のサフィックス文字列を探索するための欲張りな勾配ベースの手法を使用して、この技術をClaudeに攻撃することで実装しました。彼らは、モデルが望ましい結果を生成し、自動化攻撃を抑制する可能性を持つことを見つけました。

研究者たちは、これらの攻撃を提供することで、モデルが望ましくない回答を避けるためにモデルを微調整できると主張しています。敵対的トレーニングの方法論は、潜在的に有害なクエリに対して反復的に正しい回答を含むため、任意のモデルをトレーニングする効率的な手段として経験的に証明されています。

彼らの研究には、他の人が有害なコンテンツを生成することができる材料が含まれています。リスクが伴うにもかかわらず、彼らの研究は、有害なコンテンツの生成を回避するためのさまざまな言語モデルのテクニックを紹介することが重要です。彼らの攻撃の直接的な増加した被害は初期段階では小さいです。彼らの研究は、大規模言語モデルが自動化攻撃がもたらす危険性を明らかにするのに役立つことができます。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

機械学習

「テキストから言葉以上へ」 翻訳結果です

こんにちは読者の皆さん、今日は大規模言語モデル(LLM)の時代に生きていますこれにより、GPT4、ChatGPT、DALL·Eなどのソフ...

データサイエンス

ChatGPTにおけるCSVファイルのクエリパフォーマンス向上

洗練された言語モデル(例:ChatGPT)の出現により、表形式のデータへのクエリの新しい有望なアプローチがもたらされましたし...

機械学習

「ChatGPTは私たちを出し抜いているのか? チューリングテストの視点からの探求」

「機械は思考することができるのか?この記事は、チャットGPTの性能をチューリングテストが設定した厳しい基準に基づいて調査...

AI研究

マイクロソフトの研究者がKOSMOS-2を紹介:視覚世界に根付くことができるマルチモーダルな大規模言語モデル

マルチモーダル大規模言語モデル(MLLMs)は、言語、ビジョン、ビジョン言語のタスクを含むさまざまな活動で一般的なインター...

データサイエンス

DataFrameを効率的に操作するためのloc Pandasメソッドの使い方

データに含まれるカラムや、生データの種類、データの記述統計量を把握することは、今後のデータ処理において正しく取り組む...