中国の研究者たちは、複雑な現実世界の課題を解決するために、大規模言語模型(LLM)がマルチモーダルツールを利用できるようにする人工知能フレームワークであるControlLLMを紹介しました

「コントロールLLM:中国の研究者が大規模言語モデルをマルチモーダルツールに進化させる人工知能フレームワーク」と紹介

LLMのパフォーマンスは、複雑な現実世界のタスクを処理する能力が印象的です。ただし、曖昧なユーザーの指示、正しくないツールの選択、不適切なパラメータ設定やスケジューリングのため、正しくツールを使用するために支援が必要な場合があります。これらの課題に対処するために、香港科技大学、OpenGVLab、上海人工知能研究所、清華大学、そしてSenseTimeの研究者グループは、ControlLLMという画期的なフレームワークを提案しています。この研究は、ControlLLMがLLMの効果を向上させる重要性を検証することを目的としています。

LLMは、自律エージェントの計画、推論、意思決定の課題において大きな進展を遂げています。別の研究の方向は、LLMを外部ツールと組み合わせて、現在の情報にアクセスし、幻想を減らし、マルチモーダルな相互作用を可能にすることです。ツールによる補完されたLLMは、明示的な微調整なしで、タスクの分解、ツールの選択、パラメータの補完などを、LLMのゼロショットまたはフューショットのインコンテキスト学習を活用して処理する能力を持っています。幻想や効果的な分解などの課題は依然として存在します。LLMに固有のマルチモーダル能力を持たせるための取り組みが進行中であり、これにより、より複雑な現実世界のシナリオに応用可能性が広がっています。

LLMは、自然言語理解の能力を示し、現在はマルチモーダルな相互作用も含めた能力を拡張しています。ツールによる補完されたLLMは、タスクの分解、ツールの選択、引数の割り当て、効率的な実行スケジューリングといった課題を解決するために、画像、動画、音声などを扱うためのツールを組み込むことで、LLMの機能を拡張しようとしています。過去のChain-of-Thought、Tree-of-Thought、自己整合などの手法は、複雑なタスクを小さなサブタスクに分割することで対処してきました。

ControlLLMフレームワークは、タスクの分解器、Thoughts-on-Graphアプローチ、および多目的実行エンジンの3つの重要なコンポーネントから構成されています。タスクの分解器は、複雑なユーザーの指示を明確に定義されたサブタスクに分割します。Thoughts-on-Graphでは、事前に定義されたツールグラフ上で最適な解決経路を探索し、ツール間のパラメータや依存関係を指定します。実行エンジンは、この経路を解釈し、さまざまな計算装置上で効率的にアクションを実行します。

ControlLLMフレームワークは、既存の手法と比較して精度、効率性、柔軟性において優れており、特に画像、音声、ビデオ処理を含むさまざまなタスクにおいて優れた成績を誇ります。難しいタスクの解決評価において、ControlLLMは98%の成功率を誇り、最高基準の59%を上回ります。ControlLLMはツールの使用方法も大幅に向上させ、ツールの引数を的確に推論して割り当てます。簡単なシナリオから複雑なシナリオまで、ControlLLMはさまざまな情報タイプを統合し、実行結果に基づいた包括的かつ有意義な応答を生成します。

まとめると、ControlLLMフレームワークは、複雑な現実世界のタスクに取り組むためにLLMがマルチモーダルなツールを使用する能力を向上させ、優れた精度、効率性、適応性を提供します。タスクの分解器、Thoughts-on-Graphの手法、多目的実行エンジンといったコンポーネントは、ツールの利用において大幅な改善をもたらします。ControlLLMは常にツールの引数を的確に推論し割り当て、解決評価において高い成功率を達成するというその能力を実証しています。広範な事例研究を通じて、ユーザーエクスペリエンスを高める多様な解決策を提供するタスク計画の能力を再確認しています。ControlLLMは、実行結果に基づいた包括的かつ有意義な応答を生成するために、さまざまな情報源を統合しています。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

機械学習

「MindGPTとは、fMRI信号から察知された視覚刺激を自然言語に解釈する非侵襲的な神経デコーダーです」

他の人とコミュニケーションを取るために、人間は外界で見たことを説明するために限られた量の言葉しか使うことができません...

機械学習

「AIの潜在能力解放:クラウドGPUの台頭」

「クラウドGPU」とは、AIアプリケーションによる複雑な計算課題に対するスケーラブルでコスト効率の良い包括的なソリューショ...

コンピュータサイエンス

AIが使われて新しいビートルズの最後の曲が作成された、ポール・マッカートニー氏が語る

ミュージシャンは、古いデモからジョン・レノンの声を「抽出」し、数十年前の曲を完成させるためにテクノロジーを使用したと...

データサイエンス

「ClimSimに出会ってください:機械学習と気候研究の物理学を結びつける画期的なマルチスケール気候シミュレーションデータセット」

数値物理シミュレーション予測は、気候変動政策の指針となる情報の主要な源です。最も高性能なスーパーコンピュータの限界に...

データサイエンス

混乱するデータサイエンティストのためのPATH変数:管理方法

WindowsとUnix系システムの両方で、PATHとは何か、およびそれにパスを追加する方法を理解する

AIニュース

「Google Chromeは、努力を要さずに読むことができるAIによる記事の要約を表示するようになりました」

Googleは、AIを活用したSearch Generative Experience(SGE)により、再びイノベーションの最前線に立っています。このテック...