ToolQAとは 外部ツールを使用した質問応答のための大規模言語モデル(LLM)の能力を評価する新しいデータセット

ToolQAは、大規模な言語モデル(LLM)の質問応答能力を評価するための新しいデータセットです

大規模言語モデル(LLM)は、自然言語処理(NLP)と自然言語理解(NLU)の分野で非常に効果的であることが証明されています。有名なLLMの例として、GPT、BERT、PaLMなどがあり、これらは教育やソーシャルメディアから金融や医療まで、あらゆる領域で研究者によって解決策を提供するために使用されています。これらのLLMは、膨大な量のデータセットで訓練されており、膨大な知識を獲得しています。LLMは、チューニングを通じた質問応答、コンテンツ生成、テキスト要約、言語の翻訳など、さまざまな能力を持っています。最近では、LLMは印象的な能力を示していますが、根拠のない情報や数値的な推論の弱点を伴わずに、合理的な情報を生成することには困難があります。

最近の研究では、検索補完、数学ツール、コードインタプリタなどの外部ツールをLLMに組み込むことが、上記の課題に対するより良いアプローチであることが示されています。これらの外部ツールの有効性を評価することは困難であり、現在の評価方法では、モデルが事前に学習された情報を単に思い出しているのか、本当に外部ツールを利用して問題解決に役立てているのかを確定するための支援が必要です。これらの制約を克服するために、ジョージア工科大学のコンピューティング学部とアトランタの研究者チームが、外部リソースの利用能力を評価するためのベンチマークであるToolQAを開発しました。

ToolQAは、8つのドメインからのデータを含み、外部参照コーパスから情報を取得することができる13種類のツールを定義しています。ToolQAの各インスタンスには、質問、回答、参照コーパス、利用可能なツールのリストが含まれています。ToolQAの独自性は、すべての質問が適切なツールを使用して参照コーパスから情報を抽出することでのみ回答できるようになっており、これによりLLMが内部の知識に基づいてのみ質問に回答する可能性を最小限に抑え、ツールの利用能力を忠実に評価することができます。

ToolQAは、参照データ収集、人間による質問生成、プログラムによる回答生成の3つの自動化されたフェーズで構成されています。第1フェーズでは、テキスト、表、グラフなど、さまざまなタイプの公開コーパスが異なるドメインから収集され、ツールベースの質問応答のための参照コーパスとして使用されます。第2フェーズでは、ツールではなく参照コーパスに頼らない方法で解決できる質問が生成されます。これは、テンプレートベースの質問生成メソッドを通じて達成されます。このメソッドには、ツールの属性と人間によるテンプレートの作成と検証が含まれます。第3フェーズでは、生成された質問に対して正確な回答が生成され、ツールに対応する演算子が実装され、参照コーパスからプログラムによって回答が得られます。

チームは、ToolQA内の質問に対して、標準LLMとツールを組み込んだLLMの両方を使用して実験を行いました。その結果、ChatGPTやChain-of-thoughts promptingなど、内部の知識にのみ依存するLLMの成功率は、簡単な質問で約5%、難しい質問で約2%と低かったことが示されました。一方、ChameleonやReActなどのツールを組み込んだLLMは、外部ツールを使用することでより良いパフォーマンスを発揮し、簡単な質問では最高のパフォーマンスが43.15%、難しい質問では8.2%となりました。

結果とエラー分析からわかるように、ToolQAは現在のツールを組み込んだLLMアプローチにとって難しいベンチマークであり、より複雑なツールの構成的推論を必要とする難しい問題に対して特に難しいです。これはAIの発展における有望な進展です。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more