「情報検索と組み合わせたLLMの活用:シンプルなデモ」

Utilizing LLM with Information Retrieval Simple Demo

質問応答LLMと検索コンポーネントの統合デモ

Image generated by the author using Stable Diffusion

大規模言語モデル(LLM)は膨大な事実データを保存することができますが、その能力はパラメータの数に制限されています。さらに、LLMを頻繁に更新することは高額であり、古いトレーニングデータがLLMに時代遅れの応答を生成する可能性があります。

上記の問題に対処するために、外部ツールでLLMを補完することができます。本記事では、LLMを検索コンポーネントと統合してパフォーマンスを向上させる方法について共有します。

検索補完(RA)

検索コンポーネントは、LLMに最新かつ正確な知識を提供することができます。入力xが与えられた場合、出力p(y|x)を予測したいとします。外部データソースRから、入力xに関連するコンテキストのリストz=(z_1, z_2,..,z_n)を取得します。そして、xzを結合し、zの豊富な情報を活用してp(y|x,z)を予測します。さらに、Rを最新の状態に保つことも費用がはるかに安くなります。

Retrieval Augmented pipeline (Image by the author)

Wikipediaデータ+ChatGPTを使用したQAデモ

このデモでは、与えられた質問に対して次の手順を行います:

  • 質問に関連するWikipediaのドキュメントを取得します。
  • 質問とWikipediaの両方をChatGPTに提供します。

追加のコンテキストがChatGPTの応答にどのように影響するかを比較して確認したいです。

データセット

Wikipediaのデータセットはこちらから抽出することができます。私は「20220301.simple」というサブセットを使用しており、200,000以上のドキュメントが含まれています。コンテキストの長さ制限のため、タイトルと概要の部分のみを使用しています。各ドキュメントには、後で検索の目的でドキュメントIDも追加しています。データの例は次のようになります。

{"title": "April", "doc": "April is the fourth month of the year in the Julian and Gregorian calendars, and comes between March and May. It is one of four months to have 30 days.", "id": 0}{"title": "August", "doc": "August (Aug.) is the eighth month of the year in the Gregorian calendar, coming between July and…

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

人工知能

Diginiのスマートセンスの社長、ガイ・イエヒアブによるインタビューシリーズ

ガイ・イハイアヴ氏は、ビジネスの成功に最も重要な資産を保護するためにインターネット・オブ・シングス(IoT)の力を活用す...

AIニュース

OpenAIのCEOであるSam Altman氏:AIの力が証明されるにつれて、仕事に関するリスクが生じる

OpenAIのCEOであるSam Altmanは、特に彼の作品であるChatGPTに関するAIの潜在的な危険性について公言してきました。最近のイ...

データサイエンス

「3つの質問:ロボットの認識とマッピングの研磨」

MIT LIDSのLuca CarloneさんとJonathan Howさんは、将来のロボットが環境をどのように知覚し、相互作用するかについて議論し...

人工知能

「Ntropyの共同創設者兼CEO、ナレ・ヴァルダニアンについて - インタビューシリーズ」

「Ntropyの共同創設者兼CEOであるナレ・ヴァルダニアンは、超人的な精度で100ミリ秒以下で金融取引を解析することを可能にす...

人工知能

「Zenの共同創設者兼CTO、イオン・アレクサンドル・セカラ氏によるインタビューシリーズ」

創業者兼CTOであるIon-Alexandru Secaraは、Zen(PostureHealth Inc.)の開発を牽引しており、画期的な姿勢矯正ソフトウェア...

人工知能

「ゲイリー・ヒュースティス、パワーハウスフォレンジクスのオーナー兼ディレクター- インタビューシリーズ」

ゲイリー・ヒュースティス氏は、パワーハウスフォレンジックスのオーナー兼ディレクターであり、ライセンスを持つ私立探偵、...