Sealとは、大規模な3Dポイントクラウドに対して自己教示学習のための2Dビジョンファウンデーションモデルを活用し、「任意のポイントクラウドシーケンスをセグメント化する」AIフレームワークです

Seal is an AI framework that uses a 2D vision foundation model for self-supervised learning on large 3D point clouds to segment any point cloud sequence.

大規模言語モデル(LLMs)は、人工知能コミュニティで大きな話題となっています。 最近の影響力と驚異的なパフォーマンスは、ヘルスケア、ファイナンス、エンターテインメントなど、広範な産業に貢献しています。 GPT-3.5、GPT 4、DALLE 2、BERTなどのよく知られたLLMs、または基礎モデルは、短い自然言語プロンプトだけで独自のコンテンツを生成することにより、非常に優れたタスクを実行し、私たちの生活を簡素化しています。

SAM、X-Decoder、SEEMなどの最近のビジョン基礎モデル(VFMs)は、コンピュータビジョンの多くの進歩を遂げています。 VFMsは2D認識タスクで大きな進展を遂げていますが、3D VFM研究はまだ改善が必要です。 現在の2D VFMsを3D認識タスクに拡張することが必要であると研究者は提言しています。 重要な3D認識タスクの1つは、自動車用LiDARセンサによってキャプチャされたポイントクラウドのセグメンテーションであり、自動運転車の安全な運行に必要です。

既存のポイントクラウドセグメンテーション技術は、主にトレーニングのために注釈付けされた大規模なデータセットに依存しています。 ただし、ポイントクラウドのラベリングは時間がかかり、困難です。 すべての課題を克服するために、研究者チームは、自己教師あり表現学習をサポートするためにVFMsから意味的に豊かな知識を収集するSealというフレームワークを紹介しました。 クロスモーダル表現学習に着想を得て、Sealは、LiDARとカメラセンサの2D-3D関係を使用してクロスモーダル表現学習に高品質の対比的サンプルを開発することにより、自動車用ポイントクラウドでセルフサポート表現学習を実現します。

Sealには、拡張性、一貫性、汎用性の3つの重要な特性があります。

  1. 拡張性 – Sealは、VFMsを単にポイントクラウドに変換することで使用し、事前トレーニングの段階で2Dまたは3Dの注釈が必要なくなります。そのため、人間の注釈が必要な時間を削減するだけでなく、大量のデータを処理できます。
  1. 一貫性:アーキテクチャは、カメラからLiDARへのスペーシャルおよびテンポラルリンク、およびポイントからセグメントステージの両方でスペーシャルおよびテンポラルリンクを強制します。 Sealは、クロスモーダル相互作用をキャプチャすることにより、ビジョン、すなわちカメラとLiDARセンサのクロスモーダル相互作用を捕捉して、両モダリティから適切で一貫したデータを含む学習された表現を確実にします。
  1. 汎用性:Sealは、さまざまなポイントクラウドデータセットを含む下流アプリケーションに対する知識移転を可能にします。 それは、さまざまな解像度、サイズ、クリーン度、汚染レベル、実際のデータ、および人工データを持つデータセットを扱います。

研究チームが挙げた主な貢献のいくつかは次のとおりです。

  1. 提案されたSealフレームワークは、意味的なスペーシャルおよびテンポラル一貫性を捕捉するために作成されたスケーラブルで信頼性の高い汎用フレームワークです。
  1. 自動車用ポイントクラウドシーケンスから有用なフィーチャを抽出することができます。
  1. 著者は、この研究が、3Dポイントクラウドの大規模な自己教師あり表現学習に2Dビジョン基礎モデルを初めて使用したものであると述べています。
  1. 11種類の異なるポイントクラウドデータセット全てで、Sealは線形探査とファインチューニングの両方で以前の方法よりも優れた性能を発揮しました。

チームは、評価のために11種類の異なるポイントクラウドデータセットでテストを行い、Sealのパフォーマンスを評価しました。 結果は、既存の手法に比べてSealの優位性を示しています。 nuScenesデータセットでは、Sealは線形探査後に驚異的な平均IoU(Intersection over Union)45.0%を達成しました。 このパフォーマンスは、ランダム初期化よりも36.9%のIoUで、以前のSOTA手法を6.1%のIoUで上回りました。 Sealは、全11種類のテストされたポイントクラウドデータセット全体で、20種類の異なるフューショットファインチューニングタスクで著しい性能向上を示しました。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

機械学習

AIを活用した空中監視:UCSBイニシアチブがNVIDIA RTXを使い、宇宙の脅威を撃退する目的で立ち上がる

数か月ごとに流星群が起こると、観察者は夜空に散らばる流れ星や光の筋が輝く見事な光景を見ることができます。 通常、流星は...

機械学習

「React開発者にとってのAI言語モデルの力包括的なガイド」

このブログでは、AI言語モデルとReactのシナジーについて探求し、このコラボレーションが開発者の能力を向上させる方法を探り...

AIテクノロジー

「AIサービスへの大胆な進出:億万長者ビンニー・バンサールの大局変革」

テクノロジーと電子商取引の世界では、Binny Bansalの名前はよく知られています。オンライン小売り大手Flipkartの共同創設者...

機械学習

「ひとつのAIモデルで全てのオーディオタスクをこなせるのか?UniAudioに出会ってください:新しいユニバーサルオーディオ生成システム」

生成AIの重要な側面の1つは音声生成です。近年、生成AIの人気の高まりにより、音声制作における多様で新興のニーズがますます...

機械学習

チューリングのミル:AIスーパーコンピューターが英国の経済エンジンを加速

産業革命の発祥地であるイギリスが、次なる革命に巨額な投資を行うことを発表しました。 イギリス政府は、世界最速のAIスパー...

人工知能

「ChatGPT Meme Creator Pluginを使ってミームを作成する(ビジネスを成長させるために)」

この記事では、ChatGPT Meme Creatorプラグインを使用して、実際に面白いミームを作成する方法を詳しく説明します