このAI研究は、多モーダル大規模言語モデル(LLM)の言語生成能力を受け継ぐ大規模言語指示セグメンテーションアシスタントであるLISAを紹介しています

This AI research introduces LISA, a large-scale language instruction segmentation assistant that inherits the language generation capabilities of multimodal large language models (LLM).

コーヒーを飲みたいと思った場合、ロボットに作ってもらうように指示することを想像してください。指示には「コーヒーのカップを作ってください」というものが含まれますが、「台所に行って、コーヒーマシンを見つけて、スイッチを入れてください」といった手順の指示は含まれていません。現在の既存システムには、対象のオブジェクトを特定するために人間の指示に依存するモデルが含まれています。これらのシステムには、ユーザーの意図の推論と積極的な理解の能力が欠けています。これを解決するために、マイクロソフトリサーチ、香港大学、およびSmartMoreの研究者たちは、推論セグメンテーションという新しいタスクを提案しています。この自己推論の能力は、次世代の知覚システムの開発において重要です。

推論セグメンテーションは、複雑で暗黙のクエリテキストに対して出力をセグメンテーションマスクとして設計することを含みます。彼らはまた、推論と世界知識を含む1000以上の画像-指示のペアからなるベンチマークを作成し、評価のためのワールド知識と推論を備えたLanguage Instructed Segmentation Assistant(LISA)というGoogle AssistantやSiriに似たアシスタントを構築しました。LISAは、マルチモーダル大規模言語モデルの言語生成能力を継承しながら、セグメンテーションタスクを生成する能力を処理することができます。

LISAは、複雑な推論、世界知識、説明的な回答、および複数の会話を処理することができます。研究者は、彼らのモデルが推論フリーのデータセットでトレーニングされた場合でも堅牢なゼロショット能力を示すことができると述べています。たった239の推論セグメンテーション画像-指示ペアだけでモデルを微調整すると、パフォーマンスが向上します。

推論セグメンテーションタスクは、以前の参照セグメンテーションとは異なり、モデルが推論能力を持ち、世界知識にアクセスする必要があります。モデルがタスクをうまく実行するためには、クエリを完全に理解する必要があります。研究者たちは、彼らの方法が複雑で標準的な推論に比べて効果的な新しい推論セグメンテーションを解き明かすことを示しています。

研究者は、推論セグメンテーションのサンプルを含まないトレーニングデータセットを使用しました。このデータセットには、クエリテストで明示的にターゲットオブジェクトが示されているインスタンスのみが含まれています。複雑な推論のトレーニングデータセットがなくても、彼らはLISAがReasonSeg(ベンチマーク)で印象的なゼロショット能力を示すことを発見しました。

研究者は、LISAが20%以上のgIoUパフォーマンス向上を達成する複雑な推論タスクを達成することを見つけました。ここで、gIoUはすべての画像ごとのIntersection-over-Union(IoU)の平均です。彼らはまた、LISA-13Bが長いクエリシナリオで7Bを上回ることも発見しました。これは、より強力なマルチモーダルLLMがパフォーマンスのさらなる向上をもたらす可能性があることを意味しています。研究者はまた、彼らのモデルがバニラの参照セグメンテーションタスクにも適任であることを示しています。

彼らの今後の研究では、本当に知的な感知システムを構築するために重要な自己推論の能力にさらに重点を置く予定です。ベンチマークの確立は評価において重要であり、コミュニティに新しい技術を開発することを促します。

論文とGithubをチェックしてください。この研究における研究者には、このプロジェクトでのすべての功績があります。また、最新のAI研究ニュースやクールなAIプロジェクトなどを共有している28k+のML SubReddit40k+のFacebookコミュニティDiscordチャンネル、およびEメールニュースレターにも参加するのをお忘れなく。

この記事は、MarkTechPostに最初に掲載されたものです。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

機械学習

「Embroid」を紹介します:複数の小さなモデルから埋め込み情報を組み合わせるAIメソッドで、監視なしでLLMの予測を自動的に修正することができます

もしも、薬や医療歴に基づいた基本的なデータ分析を行うための言語モデル(LM)をプログラムしたとしたら、機械学習モデルの...

データサイエンス

次元の呪いの真の範囲を可視化する

非常に多くの特徴を持つ観測の振る舞いを視覚化するために、モンテカルロ法を使用する

AI研究

「CMUの研究者たちがRoboToolを公開:自然言語の指示を受け取り、シミュレーション環境と実世界のロボットを制御するための実行可能なコードを出力するAIシステム」

カーネギーメロン大学とGoogle DeepMindの研究者が協力して、RoboToolと呼ばれるシステムを開発しました。このシステムは大規...

AIニュース

「AIはオーディオブック制作をどのように革新しているのか? ニューラルテキストtoスピーチ技術により、電子書籍から数千冊の高品質なオーディオブックを作成する」

現在では、多くの人々が書籍や他のメディアの代わりにオーディオブックを読んでいます。オーディオブックは、現在の読者が道...

機械学習

「AIのテスト:ChatGPTと他の大規模言語モデルの偽ニュース検出における詳細な評価」

インターネットとソーシャルメディアの台頭に伴い、フェイクニュースや誤情報の拡散は深刻な問題となっています。そのため、...

AI研究

「バイトダンスAI研究は、連続および離散パラメータのミックスを使用して、高品質のスタイル化された3Dアバターを作成するための革新的な自己教師あり学習フレームワークを提案しています」

デジタルワールドへの重要な入り口は、社交、ショッピング、ゲームなどの活動において現代の生活でより一般的になっており、...