このAI論文では、LLMsの既存のタスクの新しいバリアントに適応する能力が評価されています

This AI paper evaluates the ability to adapt LLMs to new variants of existing tasks.

言語モデル(LM)の注目すべきパフォーマンスは、大規模な次の単語予測がテキストコーパスから知識を効果的に蒸留できることを示唆しています。LMは、さまざまな自然言語処理ベンチマークで印象的な結果を達成し、最先端の手法を上回り、複雑な推論を必要とするタスクでも人間を上回る成績を収めています。ただし、これらの成功は、タスクに一般的な推論スキルからくるものなのか、事前学習時に遭遇した特定のタスクを認識・回想することからくるものなのかを判断することが重要です。

これまでの研究は、主にインスタンスレベルの一般化に焦点を当てており、データの汚染問題が複雑さを増しています。本研究では、研究者たちは、パフォーミングタスクが実行される条件やルールを変更することで、LMの一般化能力を新たなタスクバリアントに対して調査しました。これらのタスクの一般的な推論手順は変更せず、具体的な入出力マッピングのみが変更されます。これらの新しいタスクは、カウンターファクトタスクと呼ばれ、デフォルト条件から逸脱し、モデルのタスクレベルの一般化能力を測定します。

研究者たちは、複数のカテゴリとドメインを網羅する11のカウンターファクト評価タスクのスイートを提案しています。これらのタスクには、演繹的な推論、コード生成、ドローイング、空間的な推論などが含まれます。元のタスクとそのカウンターファクトバリアント間の推論手順は一貫していますが、入出力マッピングは異なります。この評価は、LMの新しいタスクバリアントへの適応性を評価することを目的としています。

GPT-4、GPT-3.5、Claude、およびPaLM-2のパフォーマンスは、タスクのデフォルト条件とカウンターファクト条件の両方で評価されます。結果は、LMがランダム以上のカウンターファクトパフォーマンスを示す一方で、デフォルト設定と比較して一貫して性能が低下することを示しています。これは、これらのタスクにおけるモデルの成功が、抽象的で一般化可能な推論スキルではなく、デフォルト条件固有の振る舞いに一部帰属できることを示唆しています。

研究結果は、デフォルトとカウンターファクトタスクのモデルの振る舞いにおける興味深い関係も明らかにしています。デフォルトとカウンターファクトのパフォーマンスの相関関係、ゼロショットの連鎖思考プロンプトの効果、およびタスクおよびインスタンスレベルの頻度効果の相互作用が観察されています。全体として、タスクのデフォルトの具体化にわずかな変動があることは、LMにとって課題を提供し、既存のモデルの成功は単に目標タスクへの一般的な能力にのみ帰せられるべきではないことを示しています。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

データサイエンス

「AIコントロールを手にして、サイバーセキュリティシステムに挑戦しましょう」

あなたの組織のデータは、サイバー犯罪者の悪意のある行為に対して免疫を持っていますか?そうでなければ、弱い防御システム...

機械学習

「POCOと出会う:3D人体姿勢と形状推定のための画期的な人工知能フレームワーク」

写真や動画から3D人体のポーズと形状(HPS)を推定することは、現実世界の設定で人間のアクションを再構築するために必要です...

データサイエンス

なぜハイプが重要なのか:AIについて現実的な考え方が必要

ELIZAはChatGPTにいくつかの類似点を持つ初期のチャットボットでしたなぜこの興奮が重要なのでしょうか?船を発明すると、船...

機械学習

DeepMind RoboCat:自己学習ロボットAIモデル

世界的に有名なAI研究所であるDeepMindは、ロボットアームの様々なモデルを使用して幅広い複雑なタスクを実行できるAIモデルR...

人工知能

RAPIDS:簡単にMLモデルを加速するためにGPUを使用する

はじめに 人工知能(AI)がますます成長するにつれて、より高速かつ効率的な計算能力の需要が高まっています。機械学習(ML)...

機械学習

このAIニュースレターがあれば、あなたは全てが揃った!#70

今週のAIでは、特に2つの新しいエージェントモデルのリリースに興味を持っていましたNvidiaは、複雑なタスクを自律的に実行す...