GPT-4のようなモデルは、行動能力を与えられた場合に安全に振る舞うのか?:このAI論文では、「MACHIAVELLIベンチマーク」を導入して、マシン倫理を向上させ、より安全な適応エージェントを構築することを提案しています

GPT-4のようなモデルの安全な振る舞いについて:このAI論文では、「MACHIAVELLIベンチマーク」の導入と、より安全な適応エージェントの構築を提案しています

自然言語処理は、AIシステムが急速な進歩を遂げている分野の一つであり、モデルはデプロイメントのリスクを減らすために徹底的にテストされ、安全な動作に導かれる必要があります。従来の評価メトリックは、言語理解や推論の能力を測定することに焦点を当てていましたが、現在のモデルは実際のインタラクティブな作業のために教育されています。これは、ベンチマークがモデルの社会的な環境でのパフォーマンスを評価する必要があることを意味します。

インタラクティブなエージェントは、テキストベースのゲームでテストされることがあります。エージェントは、これらのゲームで進展するために計画能力と自然言語の理解能力を必要とします。ベンチマークを設定する際には、エージェントの非倫理的な傾向も技術的な才能と並んで考慮されるべきです。

カリフォルニア大学、AI安全センター、カーネギーメロン大学、イェール大学の新しい研究は、長期の言語インタラクションの広大な環境におけるエージェントの能力と有害性を測定するMACHIAVELLIベンチマークを提案しています。MACHIAVELLIは、自然主義的な社会的設定でのエージェントの計画能力を評価するための進歩です。この設定は、choiceofgames.comで開発されたテキストベースのChoose Your Own Adventureゲームに触発されています。これらのゲームは、高レベルの意思決定を特徴とし、エージェントに現実的な目標を与えながら、低レベルの環境インタラクションは抽象化されます。

この環境では、エージェントの行動が不正である程度、効用が低い、権力を求めるなどの行動的な特性が報告され、非倫理的な行動を監視します。チームは以下の手順に従ってこれを達成しています:

  1. これらの行動を数学的な式として具体化する
  2. ゲーム内の社会的概念を密に注釈付けする(キャラクターの福祉など)
  3. 注釈と式を使用して、各行動に対して数値スコアを生成する

彼らは、GPT-4(OpenAI、2023)が人間の注釈付け者よりも注釈を収集するのに効果的であることを実証しています。

人間と同じように、人工知能エージェントも内部的な葛藤に直面しています。次のトークン予測のためにトレーニングされた言語モデルはしばしば有害なテキストを生成しますし、目標最適化のためにトレーニングされた人工エージェントはしばしば非倫理的で権力を求める行動を示します。非倫理的に訓練されたエージェントは、他者や環境の犠牲になる報酬を最大化するためにマキャベリアンな戦略を開発する可能性があります。エージェントが倫理的に行動するように促すことで、このトレードオフを改善することができます。

チームは、倫理的なトレーニング(エージェントにより倫理的に行動するように促す)によって、言語モデルエージェントの有害な活動の発生率が減少することを発見しました。さらに、行動の正規化は報酬を大幅に減少させることなく、両方のエージェントで望ましくない行動を制限します。この研究は、信頼性のある順序決定者の開発に貢献しています。

研究者たちは、人工的な良心と倫理的なプロンプトのようなテクニックを使用してエージェントを制御しようと試みています。エージェントは、マキャベリアンな行動を少なく表示するように誘導することができますが、まだ多くの進展が可能です。彼らは、これらのトレードオフについてのさらなる研究を提唱し、限られた報酬を追い求めるのではなく、パレートフロンティアを拡大することを強調しています。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

機械学習

「FastEmbedをご紹介:高速かつ軽量なテキスト埋め込み生成のためのPythonライブラリ」

言葉やフレーズは、埋め込みを使用して高次元空間で効果的に表現することができます。これは、自然言語処理(NLP)の分野で重...

機械学習

がん診断の革命:ディープラーニングが正確に識別し再分類することで、肝臓がんの組み合わせを強化された治療判断につながります

“` 肝臓癌は、肝細胞癌(HCC)と肝内胆管癌(ICCA)を含む原発性肝癌は、それぞれ異なる特徴を持つため、重要な課題を...

人工知能

AIのパイオニア、フェイ・フェイ・リー:AIの現在と未来を航海する

導入 フェイフェイ・リーと出会ってください。彼女は人工知能(AI)の先駆者であり、この分野で画期的な発展をもたらす原動力...

データサイエンス

公正を実現する:生成モデルにおけるバイアスの認識と解消

2021年、プリンストン大学の情報技術政策センターは、機械学習アルゴリズムが人間と同様の偏見を抱くことがあるという報告書...

機械学習

AI導入の迷宮を進む

「過去5年間、複数の企業と協力し、彼らがAIソリューションを展開するのを支援してきましたその過程で、いくつかの共通のパタ...

AIニュース

「GoogleのMed-PaLM 2は最も先進的な医療AIとなる予定」

Google(グーグル)は世界をリードするテクノロジー企業の一つであり、最新の人工知能(AI)プログラムにより、医療分野に大...