新しいAI研究が、大規模言語モデル(LLMs)の能力を分析するためのプロンプト中心のアプローチを提案しています

新しいAI研究は、LLMsの能力を分析するためのプロンプト中心のアプローチを提案しています

大規模言語モデル(LLM)の使用の急増により、自然言語処理(NLP)の分野は完全に変革され、特にLLMがオープンエンドのテキストを生成するよう促されています。オープンエンドのテキスト生成の応用は広範囲にわたり、質問応答、ストーリー生成、コード生成、人間支援の創造性、オープンエンドの対話など、複数の領域に及びます。

これらのモデルがますます普及するにつれ、これらのシステムの予測不可能性に対する懸念が高まっており、そのためにはこれらの能力と限界をよりよく理解する必要があります。

ジョージア工科大学、上海交通大学、Google、スタンフォード大学の研究者は、オープンテキスト生成を分析するためのプロンプトのタクソノミーを作成しました。彼らは288のプロンプトで実験し、3000以上の出力を評価し、緩和戦略と将来の研究方向を分析しました。

言語モデルのオープンテキスト生成の能力と制約を分析するために、研究者はユーザーがプロンプトに自然に制約を設定する方法に基づいて個々の制約のタクソノミーを作成しました。彼らは各制約のためのシンプルで自然なベースのプロンプトを設計し、主題やプロンプトテンプレートなどの次元で変化させることでプロンプトのばらつきを緩和しました。

プロンプトの制約は、スタイルの制約(文章のスタイルに制約を加える)と構造の制約(単語数を制限するなど、文章の構造に制約を加える)の2つのカテゴリに分類されます。

研究者たちは288のプロンプトを作成し、GPT-3、OPT、BLOOM、GLMを使用して出力を生成しました。評価のために、各プロンプトに対して10の出力を生成しました。たとえば、スタイルの制約「気分」のためのベースのプロンプトは「読者に[怒り、恐怖、幸せ、悲しい]と感じさせる愛についての文章を書いてください」となります。

出典:https://github.com/SALT-NLP/Bound-Cap-LLM

スタイルの制約

研究者たちは、GPT-3がコメディ、風刺、皮肉、文芸などの一部の難しいスタイルの制約に苦労し、スタイルと主題の組み合わせに敏感であることを発見しました。プロンプトが難しすぎると、GPT-3はスタイルと主題を混同し、創造的な文章に特有でない単語に苦労します。

ただし、モデルのパフォーマンスは注釈者が認識するプロンプトの難しさとは相関しておらず、ヒトとLLMの間でプロンプトの難しさに寄与する要素が異なることを示しています。これは、LLMにとってどのプロンプトが難しいかどうかを経験的に見つけることの重要性を強調しています。

構造の制約

GPT-3は一般的に文章の構造の制約を理解することができますが、必要な単語数や文の数などの数値的な制約に苦労し、しばしば正確ではない出力を生成します。また、GPT-3は学術論文の適切なフォーマットができないことがあります。これは、訓練データにおいてこのようなドキュメントに対する明確なラベリングが欠けているためです。

著者らは、同じプロンプトと追加の数値的な構造の制約のプロンプトを使用して、他の3つのLLM、OPT-176B9、BLOOM-176B10、GLM-130B11を分析するために彼らの手法を使用しました。これらのモデルはGPT-3よりも性能が低く、生成された出力の半数以上が劣化していることがわかりました。

コメント

この論文では、構造的およびスタイリスティックな制約の下でオープンエンドのテキストを生成する言語モデルの能力を分析するための手法が提案されています。結果は、モデルの課題に一致する失敗と、構造的およびスタイリスティックな制約を横断する新しい失敗パターンを示しています。

著者らはまた、両方の領域でパフォーマンスを一貫して改善するための緩和策を提供しています。論文は、スタイリスティックおよび構造的な制約のすべての側面をカバーしておらず、すべてのオープンテキスト生成を代表しているわけではないという制約も認識しています。

著者らはまた、スタイルの誤用や注釈者の被害の可能性などの倫理的な考慮事項について触れ、注釈者を保護するためのガイドラインを提案しています。全体的に、この論文で提案されている手法と結果は、言語モデルの能力と制約を理解するために貢献しています。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

AIニュース

原子力輸送船のAI推進帆のテスト

英国の使用済み核燃料輸送船団は、燃料費と排出物を減らすために、人工知能による帆を備えた改装を目指しています

AI研究

UC San Diegoの研究者DYffusion:空間的時間予測のためのダイナミクスに基づく拡散モデル

ダイナミックシステムの将来の振る舞いを予測することは、システムの進化を駆動する基礎的なダイナミクスを理解し、将来の状...

データサイエンス

ML プレゼンテーションに PowerPoint を使うのをやめて、代わりにこれを試してみてください

悪いパワーポイントは、注意散漫な聴衆を生み出します(彼らはカメラをオフにし、複数のタスクを同時に行います)また、その...

データサイエンス

「ULTRA 知識グラフ推論のための基礎モデル」

「任意のデータセットを解決するための単一の一般的なモデルを訓練することは、特に基盤モデルの時代において、機械学習の研...

データサイエンス

ChatGPTにおけるCSVファイルのクエリパフォーマンス向上

洗練された言語モデル(例:ChatGPT)の出現により、表形式のデータへのクエリの新しい有望なアプローチがもたらされましたし...

機械学習

コンピューティングの未来を展望する

MITの学生たちは、コンピューティングの進歩が社会をどのように変革するかについてのアイデア、願望、ビジョンを、社会的・倫...