「バイオメディシンのための検索補完型生成(RAG)を行っていますか? MedCPTを利用してゼロショットのバイオメディカル情報検索を行いましょう:対話的な事前学習済みトランスフォーマーモデル」

「バイオメディカル情報を探索するための対話型モデル「RAG(Retrieve and Generate)」を使用していますか? MedCPTを活用して一発でバイオメディカル情報を検索しましょう!」

情報検索(IR)モデルは、ユーザークエリに基づいてドキュメントをソートおよびランク付けし、効率的かつ効果的な情報アクセスを容易にする能力を持っています。 IRの最もエキサイティングな応用の1つは、バイオ医学の分野での使用であり、関連する科学文献を検索し、医療従事者がエビデンスに基づいた意思決定を行うのに役立ちます。

ただし、この分野の既存のIRシステムのほとんどはキーワードベースであるため、正確に同じキーワードを共有しない関連する記事を見落とす可能性があります。さらに、密なリトリーバベースのモデルは、ドメイン固有のタスクでうまく機能しない一般的なデータセットでトレーニングされています。さらに、そのようなドメイン固有のデータセットが不足しているため、汎用性のあるモデルの開発が制限されています。

これらの問題に対処するため、この論文の著者は、255Mのクエリ-記事ペアを匿名化されたPubMed検索ログからトレーニングされたIRモデルであるMedCPTを導入しました。従来のIRモデルは、リトリーバモジュールと再ランカーモジュールとの間に不一致があり、パフォーマンスに影響を及ぼします。一方、MedCPTは、コントラスティブラーニングを使用してこれらの2つのコンポーネントを統合する最初のIRモデルです。これにより、再ランキングプロセスが検索された記事の特性とより密接に一致し、システム全体がより効果的になります。

上記のように、MedCPTは第1ステージのリトリーバと第2ステージの再ランカから構成されています。このバイエンコーダアーキテクチャはスケーラブルであり、ドキュメントはオフラインでエンコードでき、推論時にはユーザークエリのみをエンコードする必要があります。その後、リトリーバモデルは最もエンコードされたクエリに似ているドキュメントの部分を特定するために最近傍探索を使用します。再ランカは、クロスエンコーダであり、リトリーバによって返されたトップの記事のランキングをさらに微調整し、最終的な記事のランキングを生成します。

再ランカは計算コストがかかりますが、MedCPTのアーキテクチャ全体は効率的です。再ランキングプロセスの前にエンコードと最近傍探索のみが必要です。MedCPTは、さまざまなゼロショットバイオメディカルIRタスクで評価されました。以下はその結果です:

  • MedCPTは、BEIRベンチマークの5つのバイオメディカルタスクのうち3つで最先端のドキュメント検索パフォーマンスを達成しました。GoogleのGTR-XXL(4.8B)やOpenAIのcpt-text-XL(175B)などのより大きなモデルを上回りました。
  • MedCPTの記事エンコーダは、SPECTERやSciNCLなどの他のモデルに比べてRELISH記事の類似度タスクで優れたパフォーマンスを発揮します。さらに、SciDocsのMeSH予測タスクでもSOTAのパフォーマンスを達成します。
  • MedCPTのクエリエンコーダは、バイオメディカルおよびクリニカルの文を効果的にエンコードすることができました。

結論として、MedCPTはリトリーバと再ランカモジュールのペアを統合した最初の情報検索モデルです。このアーキテクチャは効率とパフォーマンスのバランスを提供し、MedCPTは多くのバイオメディカルタスクでSOTAのパフォーマンスを発揮し、多くの大きなモデルを上回ります。このモデルは、関連する記事の推奨、類似文の検索、関連文書の検索など、さまざまなバイオメディカルアプリケーションに適用する潜在能力があり、バイオメディカルの知識発見と臨床的意思決定のために不可欠な資産です。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

データサイエンス

「エンタープライズAIの処理のための表現能力を向上させる鍵は、RAG + ファインチューニングです以下にその理由を説明します」

「ジェネレーティブAIはほとんどのCEOの頭にありますが、そのエンタープライズへの適応方法は議論の余地がありますその成功の...

AI研究

Google DeepMindの研究者がSynJaxを紹介:JAX構造化確率分布のためのディープラーニングライブラリ

データは、その構成要素がどのように組み合わさって全体を形成するかを説明するさまざまな領域で構造を持っていると見なすこ...

機械学習

「シャッターストックがNVIDIAピカソとともに生成AIを3Dシーンの背景に導入」

こんな感じです:Shutterstockの最新のツールを使って、クリエイターはジェネレーティブAIの助けを借りて、迅速にカスタマイ...

データサイエンス

『ELS+ Stream Tool』

ELS+は、企業がデータから有益な洞察を抽出し、意思決定を改善し、パフォーマンスを向上させるためのAIパワードアナリティク...

機械学習

AutoMLのジレンマ

「AutoMLは過去数年間、注目の的となってきましたそのハイプは非常に高まり、人間の機械学習の専門家を置き換えるという野心...

データサイエンス

「高度な生成型AIの探求 | 条件付きVAEs」

はじめに この記事へようこそ。ここでは、生成AIのエキサイティングな世界を探求します。主にConditional Variational Autoen...