このAI研究は、質問応答の実行能力において、指示に従うモデルの正確さと忠実さを評価します

This AI research evaluates the accuracy and fidelity of models that follow instructions in terms of their question answering performance.

最近導入された大規模言語モデル(LLM)は、人工知能(AI)コミュニティを席巻しています。これらのモデルは、非常に優れた自然言語処理(NLP)、自然言語生成(NLG)、自然言語理解(NLU)を使用して、人間を成功裏に模倣することができました。LLMは、現実的な会話をするために人間を模倣し、簡単な質問や複雑な質問に答えること、コンテンツの生成、コードの補完、機械翻訳、テキストの要約などが可能です。NLPの目標は、コンピュータシステムが自然言語で与えられた命令を理解し、反応することを可能にすることで、人々がより自然で柔軟な方法でそれらと関わることを可能にすることです。その最良の例が命令に従うモデルです。

これらのモデルは、LLM、教師ありの例、または他のタイプの教示、および自然言語の命令として記述された数千のタスクにさらされることで訓練されます。最近の研究では、Mila Quebec AI Institute、McGill大学、Facebook CIFAR AI Chairのチームが、与えられたテキストパッセージの質問応答(QA)の実行能力を評価するための命令に従うモデルのパフォーマンスを調査しました。これらのモデルは、タスクを記述するプロンプト、質問、およびリトリーバーによって取得された関連するテキストパッセージを提供されると、質問に答えることができ、これらのモデルによって生成される応答は自然で情報豊かであり、ユーザーの信頼と関与の構築に役立ちます。

これらのモデルは、取得したドキュメントと命令のみを入力に追加することで、ユーザーのクエリに自然かつ流暢に応答することができます。しかし、この余分な冗長性により、完全一致(EM)やF1スコアなどの従来のQA評価指標がモデルのパフォーマンスを効果的に定量化するのが難しくなります。これは、モデルの応答が参照回答に直接記載されていない情報も含める可能性があるためですが、それでも正確であることが求められます。チームは、この問題を克服するために、命令に従うモデルを検索に基づいた品質保証(QA)で測定するための2つの基準を提供しています。

  1. 情報の必要性、正確性に関するもの:この次元は、モデルがユーザーの情報要件をどれだけ満たしているかを評価します。生成された応答が、直接的に参照回答に記載されていることを超えた関連情報を含んでいるかどうかに関心があります。
  1. 提供された情報に対する忠実度:この次元は、モデルが提示された知識に基づいて答えを根拠付ける能力を評価します。真のモデルは、関連しない情報が提示された場合には応答を控えるだけでなく、知識のスニペットにアクセスできる場合には正確な回答を提供するべきです。

著者たちは、オープンドメインQAのためのNatural Questions、マルチホップQAのためのHotpotQA、会話型QAのためのTopiOCQAという3つの異なるQAデータセットで、いくつかの最近の命令に従うモデルを評価しました。彼らは900のモデル応答を手動で分析し、正確性と忠実度の異なる自動評価指標と比較しました。その研究は、参照回答のトークンの一部がモデルの応答にも含まれている割合を測定する再現率が、EMやF1スコアなどの語彙の重複メトリックよりも正確性との相関が強いことを示唆しています。忠実度のための他のトークン重複メトリックと比較して、モデルの回答トークンの一部が知識スニペットに存在する割合であるK-Precisionは、人間の判断とより強い相関関係があります。

結論として、この研究は、命令に従うモデルのQAタスクにおけるより徹底的な評価を進め、その利点と欠点の両方を考慮に入れることを目指しています。チームは、自分たちのコードとデータをGitHubリポジトリで公開することで、この領域でのさらなる進歩を促進しています。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

データサイエンス

「タイムシリーズの拡張」

「拡張機能は、コンピュータビジョンパイプラインの領域において欠かせない要素となってきましたしかし、タイムシリーズなど...

機械学習

ChatGPTのバイアスを解消するバックパック:バックパック言語モデルはトランスフォーマーの代替AI手法です

AI言語モデルは私たちの生活の中で不可欠なものになっています。情報にアクセスするために数十年間Googleを使用してきました...

機械学習

「機械学習の方法の比較:従来の方法と費用削減の代替方法 - 本当に効果があるのはどれか?」

人工知能は、クラウドプラットフォーム、金融、量的金融、製品設計など、さまざまな分野で日々大きく進化しています。多くの...

機械学習

「ペンの向こう側:視覚的な原型からの手書きテキスト生成におけるAIの芸術性」

個々の作家の独自の書道スタイルを再現する手書きテキスト生成(HTG)という新興の分野は、手書きテキスト認識(HTR)モデル...

データサイエンス

Btech卒業後に何をすべきですか?

Btechの後に何をすべきですか?このよくある質問は、最終学年や最近卒業した学生にとって悩みの種です。多くの人々が従来のキ...

機械学習

「機械学習を使ってイタリアのファンタジーフットボールで勝利した方法」

「機械工学の専門家としてプログラミングとコンピュータサイエンスに興味を持っていた私は、数年前に機械学習と人工知能の世...