新しいGoogle AI研究では、ペアワイズランキングプロンプティング(PRP)という新しい技術を使用して、LLMの負担を大幅に軽減することを提案しています

In new Google AI research, a new technique called Pairwise Ranking Prompting (PRP) is proposed to significantly reduce the burden of LLM.

教師ありの対応モデルが数百万のラベル付き例で訓練されるのに対して、GPT-3やPaLMなどの大規模言語モデル(Large Language Models、LLMs)は、ゼロショット設定でもさまざまな自然言語のタスクで印象的な性能を示してきました。しかし、LLMsを使用して基本的なテキストランキング問題を解決することは、まちまちな結果となっています。既存の研究では、訓練済みのベースラインランカーと比較して明らかに性能が低いことが多いです。ただし、大規模でブラックボックスで商業的なGPT-4システムに依存する新しい戦略は、例外として扱われています。

彼らは、このようなブラックボックスのシステムに頼ることは、学術研究者にとっては重要な費用制約やアクセス制限のために理想的ではないと主張しています。ただし、ランキングメトリックスは入力ドキュメントの順序が変わると50%以上低下することも認識しています。この研究では、彼らはまず、現在のアプローチのポイントワイズとリストワイズの形式を使用した場合に、LLMsがランキング問題に苦労する理由を説明します。生成のみのLLM API(GPT-4など)ではこれができないため、ポイントワイズのランキングでは、ソートする前にLLMsがキャリブレーションされた予測確率を生成する必要があり、これは非常に困難とされています。

リストワイズのアプローチにおいては、人間には非常に明らかな指示でも、LLMsは一貫性のないまたは無意味な出力を提供することがよくあります。実証的には、以前の研究で用いられたリストワイズのランキングプロンプトは、VoAGIサイズのLLMsでは完全に無意味な結果を提供することがわかります。これらの結果から、現在広く使用されているLLMsは、ランキングタスクを理解する必要があることが示されており、これは事前トレーニングと微調整の技術がランキングの認識を欠いているためかもしれません。LLMsのタスクの複雑さを大幅に低減し、キャリブレーションの問題に対処するため、Google Researchの研究者はペアワイズランキングプロンプティング(PRP)パラダイムを提案しています。PRPは、クエリと一対のドキュメントをランキングタスクのプロンプトとして使用するシンプルなプロンプトアーキテクチャに基づいており、デフォルトで生成とスコアリングのLLM APIを提供します。

彼らは効率性に関する懸念に対応するためにいくつかのPRPのバリエーションについても議論しています。PRPの結果は、伝統的なベンチマークデータセット上で中程度の規模のオープンソースのLLMsを使用して、最先端のランキングパフォーマンスを達成するための初めての文献です。TREC-DL2020では、20BパラメータのFLAN-UL2モデルに基づくPRPは、黒箱の商業的なGPT-4に比べて、NDCG@1で5%以上優れたメソッドを提供しています(推定)50倍のモデルサイズ。TREC-DL2019では、PRPは、175Bのパラメータを持つInstructGPTなどの現在の解決策を、ほぼすべてのランキング指標で10%以上上回すことができますが、NDCG@5とNDCG@10のメトリックではGPT-4の解決策に劣る結果となります。また、3Bおよび13Bのパラメータを持つFLAN-T5モデルを使用した競争力のある結果も示して、PRPの有効性と適用範囲を示しています。

彼らはまた、PRPの追加の利点、LLM APIのスコアリングと生成のサポート、および入力順序への感度の低さについてもレビューしています。結論として、この研究は以下の3つの貢献を行っています:

• 彼らは、LLMsを使用したゼロショットランキングにおいてペアワイズランキングプロンプティングがうまく機能することを初めて示しています。彼らの結果は、既存のシステムがブラックボックスで商業的でかなり大きなモデルを使用するのに対し、中程度の規模のオープンソースのLLMsに基づいています。

• シンプルなプロンプティングとスコアリングメカニズムを使用して、最先端のランキングパフォーマンスを実現することができます。この発見により、この領域での将来の研究がよりアクセス可能になります。

• 線形の複雑さを実現しながら、いくつかの効率化の改善を検証し、良好な実証的なパフォーマンスを示しています。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

機械学習

「ChatGPTは私たちを出し抜いているのか? チューリングテストの視点からの探求」

「機械は思考することができるのか?この記事は、チャットGPTの性能をチューリングテストが設定した厳しい基準に基づいて調査...

AI研究

「強力な遺産:研究者の母が核融合への情熱をかきたてる」

編集者のメモ:これは、高性能コンピューティングを用いて科学を進める研究者を紹介するシリーズの一部です。 高校に入る前、...

AIニュース

「ショートGPTと出会おう:コンテンツ作成の自動化とビデオ制作プロセスの効率化のためのパワフルなAIフレームワーク」

デジタルコンテンツ制作のスピードが速い世界では、効率性と創造性が重要です。ShortGPTは、コンテンツ制作を自動化し、ビデ...

機械学習

アーサーがベンチを発表:仕事に最適な言語モデルを見つけるためのAIツール

ニューヨーク市の通りでは、AIの新興スタートアップ「Arthur」が機械学習の世界で話題をさらっています。生成型AIに関するブ...

機械学習

「大規模言語モデルの謎解き:インフルエンス関数とそのスケーラビリティの深い探求」

大規模な言語モデル(LLM)は、様々な現実世界の分野で開発を加速させ、文脈に基づいた学習や思考の連鎖による推論など、予期...

機械学習

「非常にシンプルな数学が大規模言語モデル(LLMs)の強化学習と高次関数(RLHF)に情報を提供できるのか? このAIの論文はイエスと言っています!」

人間の入力を取り入れることは、ChatGPTやGPT-4などの大規模言語モデル(LLM)の能力の近年の印象的な向上の鍵要素です。人間...