『CMUからの新しいAI研究は、適切な言語モデルに対して物議を醸す行動を生成させるための、簡単で効果的な攻撃手法を提案しています』

「CMUの新しいAI研究は、物議を醸す行動を生成するための簡単で効果的な攻撃手法を提案しています」

ChatGPT、Bard AI、およびLlama-2などの大規模言語モデル(LLM)は、望ましくないまたは攻撃的なコンテンツを生成することがあります。ChatGPTに選挙操作の手引きや試験問題用紙をリクエストすると想像してください。LLMからそのような質問に対する出力を得ることは適切ではありません。カーネギーメロン大学、AIセンター、およびボッシュAIセンターの研究者たちは、この問題に対する解決策を提案し、これらのモデルを不適切な生成から防ぐために調整しました。

研究者たちは、これを解決するためのアプローチを見つけました。LLMに対して問題のあるさまざまなクエリを提示すると、モデルは単に回答を拒否するだけでなく、肯定的な応答を生成します。彼らのアプローチには、欲張りな探索技術と勾配ベースの探索技術を用いた敵対的な接尾辞の生成が含まれています。このアプローチを使用することで、過去の自動プロンプト生成方法が改善されます。

オフェンシブなコンテンツを生成するために整列されたLLMによって生成されるプロンプトは、ジェイルブレイクと呼ばれます。これらのジェイルブレイクは、自動化された手法ではなく、モデルを誤った方向に導くシナリオを設定することによって、人間の創造力によって生成されます。画像モデルとは異なり、LLMは離散的なトークン入力で動作するため、効果的な入力が制限されます。これは計算上困難なことがわかっています。

研究者たちは、有害なクエリがユーザーから与えられた場合、ユーザーの元のクエリをそのままにするために敵対的な接尾辞を追加します。敵対的な接尾辞は、初期の肯定的な応答に基づいて選択され、欲張りな最適化および勾配ベースの最適化、および堅牢なマルチプロンプトおよびマルチモデル攻撃が組み合わされています。

信頼性のある攻撃接尾辞を生成するために、研究者たちは単一のモデルの単一のプロンプトだけでなく、複数のモデルにわたる複数のプロンプトに対しても機能する攻撃を作成する必要がありました。研究者たちは、単一のサフィックス文字列を探索するための欲張りな勾配ベースの手法を使用して、この技術をClaudeに攻撃することで実装しました。彼らは、モデルが望ましい結果を生成し、自動化攻撃を抑制する可能性を持つことを見つけました。

研究者たちは、これらの攻撃を提供することで、モデルが望ましくない回答を避けるためにモデルを微調整できると主張しています。敵対的トレーニングの方法論は、潜在的に有害なクエリに対して反復的に正しい回答を含むため、任意のモデルをトレーニングする効率的な手段として経験的に証明されています。

彼らの研究には、他の人が有害なコンテンツを生成することができる材料が含まれています。リスクが伴うにもかかわらず、彼らの研究は、有害なコンテンツの生成を回避するためのさまざまな言語モデルのテクニックを紹介することが重要です。彼らの攻撃の直接的な増加した被害は初期段階では小さいです。彼らの研究は、大規模言語モデルが自動化攻撃がもたらす危険性を明らかにするのに役立つことができます。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

AI研究

スタンフォードの研究者たちは「CORNN」という機械学習手法を紹介します:大規模な脳神経記録のリアルタイム分析のためのものです

技術の進歩により、神経科学の研究分野では新たな時代を迎えました。この非凡な力により、生物の脳機能と行動の微妙な関係を...

AIテクノロジー

「BrainChipがエッジAIの進歩のための2世代目のAkidaプラットフォームを公開」

人工知能(AI)の能力への飽くなき欲求が特徴とされる時代において、ニューラルネットワークプロセッサのパイオニアであるBra...

AI研究

スタンフォード大学の研究者たちは、MLAgentBenchを提案しました:AI研究エージェントのベンチマーキングのためのマシンラーニングタスクのスイート

人間の科学者は未知の深みを探索し、さまざまな未確定の選択を要する発見をすることができます。科学的な知識に裏打ちされた...

データサイエンス

「DeepMindによるこのAI研究は、シンプルな合成データを使用して、大規模な言語モデル(LLM)におけるおべっか使用を減らすことを目指しています」

大規模言語モデル(LLMs)は近年大きく進化し、推論を必要とする難しいタスクを処理することができるようになりました。OpenA...

AIニュース

「Raspberry Piは音を使って目に見えないドローンを追跡する」

テキサス大学とテネシー大学の研究者たちは、ラズベリーパイコンピューターを使用して、音で見えないドローンを追跡しました

機械学習

「AWSとAccelが「ML Elevate 2023」を立ち上げ、インドのAIスタートアップエコシステムを力強く支援」

Amazon Web Services(AWS)とAccelは、革新的な6週間のアクセラレータープログラム「ML Elevate 2023」を発表しました。この...