「LLMはナレッジグラフを取って代わるのか? メタリサーチャーが提案する『ヘッド・トゥ・テイル』:大規模言語モデルの事実知識を測るための新たな基準」

Meta researcher proposes 'Head to Tail' a new criterion for measuring factual knowledge of large-scale language models, replacing the Knowledge Graph with LLM.

大規模言語モデルは、その超すばらしい能力によって多くの評価を集めています。彼らは人間を模倣し、人間のようにコンテンツを生成することができます。ChatGPTやLLaMAなどの事前学習済みの大規模言語モデル(LLM)は、素晴らしい能力を持っており、素材を理解し、頻繁なクエリに応答することができます。いくつかの研究では、彼らは知識を内面化し、問い合わせに応答する能力を示しています。しかし、LLMは大きく進化しているものの、特定のドメインの微妙なニュアンスを高度に理解することができず、幻覚として誤った情報を生成する傾向があります。これは、LLMの正確性を向上させ、幻覚的な応答の発生率を減らすための重要な障害を示しています。

LLMに関連する議論は、主に以下の3つの主要な領域に焦点を当てています。それは、LLMが生成した応答の幻覚を減らすこと、LLMの事実的な正確性を向上させること、そしてLLMが世界の知識を象徴的な形式で記憶する手段として知識グラフ(KG)をいずれ置き換える可能性についての推測です。最近、Meta Reality Labsの研究チームは、これらの問いに答える新しいアプローチを取り、LLMが実際にどれだけの情報を持っているかを判断しようと試みました。

知識に関してLLMがどれだけ精通しているかという問いには、2つの側面があります。まず第一に、LLM内に含まれる知識を直接的に問いかけることは困難かもしれません。モデルのパラメータに既に組み込まれている知識であっても、知識の不足や生成モデルの誤作動によって幻覚が引き起こされる可能性があります。この研究では、LLMの中に含まれる知識の程度をある基準として正確さを使用することを提案しています。これは、「バスケットボール選手のマイケル・ジョーダンはどこで生まれましたか?」のような明確で正確な質問に対するモデルの回答能力を評価するものです。LLMには簡潔な回答を提供するように求められ、自信が低い場合には「unsure」という言葉を使用して不確実性を認めるようにします。

第二に、ユーザーの関心の多様性や世界の情報の広がりを正確に反映する利用可能なベンチマークは存在しません。最も包括的な知識グラフでも、知識のギャップが存在し、特にあまり知られていない事実に関しては顕著です。LLMや検索エンジンのクエリログは一般に利用できません。

これらの制限に対処するために、チームは「Head-to-Tail」というベンチマークを作成しました。このベンチマークは、人気のある主題に基づいてヘッド、トルソー、テールの事実に分けられた18,000の質問と回答(QA)のセットで構成されています。これらのカテゴリには異なる一般的な認知レベルが反映されています。チームは、LLMが適切に吸収した知識の幅を密接に反映する評価方法と一連の尺度を作成し、LLMが保持する知識を評価するために使用しています。

研究の中心は、一般の人々に利用可能な14のLLMの評価です。その結果、既存のLLMは事実データの理解を完全に習得する点でまだ大幅な改善が必要であることが示されました。特に、トルソーからテールの領域に含まれる、あまり知られていない組織に関する情報については、これが当てはまります。

結論として、この研究は最近提案されたベンチマークと最新の評価技術を使用してLLMの事実的な知識を検証しています。この研究は、重要な研究課題を扱い、具体的な結果を示すことにより、大規模言語モデルが事実情報を組み込む上での信頼性と将来の進展に関する継続的な議論に重要な貢献をしています。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

機械学習

このAI論文では、「ステーブルシグネチャ:画像透かしと潜在的な拡散モデルを組み合わせたアクティブ戦略」が紹介されています

生成モデリングと自然言語処理の最近の進歩により、DALL’E 2やStable Diffusionなどのツールを使用して、写真のような...

機械学習

AWS Inferentiaでのディープラーニングトレーニング

この投稿のトピックは、AWSの自社開発AIチップ、AWS Inferentia、より具体的には第2世代のAWS Inferentia2ですこれは、昨年の...

AI研究

「Microsoftの研究者がPIT(Permutation Invariant Transformation)を提案:動的まばらさのためのディープラーニングコンパイラ」

“`html 最近、深層学習は動的スパース性に最適化されたモデルの研究によって注目されています。このシナリオでは、スパ...

データサイエンス

「現代の好み引き出しにおける回帰とベイズ手法」

「線形回帰は予測モデリングの主力と考えられることが多いですが、その応用は単純な予測タスクを超えていますこの記事では、...

AI研究

DeepMindの研究者たちは、正確な数学的定義を用いて、連続した強化学習を再定義しました

深層強化学習(RL)の最近の進展により、人工知能(AI)エージェントがさまざまな印象的なタスクで超人的なパフォーマンスを...

機械学習

AIは精神疾患の検出に優れています

重症患者のせん妄検知は、患者のケアや回復に重要な影響を与える複雑なタスクです。しかし、人工知能(AI)と迅速な反応型脳...