AIパルス＃2：メタの人間のようなAI＆小さな言語モデル

AI Pulse #2 Human-like AI & Small Language Models

AIパルス

メタの2つの新しいモデルは、人間のように学習し、小さな言語モデルは実際に何を学ぶのか？

今回の内容：

MetaのImageBind、6つのモダリティから学習するモデル
I-JEPA、Yann LeCunの人間のようなAIの夢に向けた第一歩
MicrosoftのOrcaが小さな言語モデルのトレンドを設定するのか？

AIパルスはSubstackでも無料のニュースレターとして利用可能です。

ImageBindは6つのモダリティから学習する

要約

📢 MetaがImageBindをリリースしました。このモデルは、同時に6つのモダリティから学習する能力を持っています。📝 論文：https://arxiv.org/abs/2305.05665💻 コード：https://github.com/facebookresearch/ImageBind👀 デモ：https://imagebind.metademolab.com/demo

ニュース

Metaの研究所は、マルチモダリティの意味を次のレベルに引き上げています。SAMとDINOv2に続いて、彼らは最新の発明であるImageBindを発表しました。このモデルは、テキスト、画像、音声/ビデオ、3D深度、熱（赤外線放射によるもの）、イナーシャル計測ユニット（IMU）など、6つのモダリティを横断的に学習します。これは、人間と同様に異なるソースから吸収した情報を組み合わせる能力をモデルに備える試みです。

ImageBindの主な特徴は、すべてのモダリティからの情報を単一の埋め込み空間にマップすることです。その結果、異なるモダリティ間で類似性検索を実行したり、マルチモーダルな検索を行ったり、モダリティを算術で組み合わせたりすることが可能です。提供されたデモアプリでImageBindを試すことができます。テキストのプロンプトから画像と音を想起させるか、音声と組み合わせて画像を活気づける（犬の吠え声をビーチの写真に溶け込ませて、ビーチでくつろぐ犬の画像を生成するなど）など、マルチモーダルな可能性は無限です！

より深く探求する

ImageBindの中心には、画像が特定のバインド特性を持っているという観察結果があります。これは、画像が他のデータモダリティと共起する傾向があり、それらの他のモダリティを互いに整列させるための橋渡しとなっていることを意味します。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Was this article helpful?

93 out of 132 found this helpful

AIパルス＃2：メタの人間のようなAI＆小さな言語モデル

AIパルス

メタの2つの新しいモデルは、人間のように学習し、小さな言語モデルは実際に何を学ぶのか？

ImageBindは6つのモダリティから学習する

要約

ニュース

より深く探求する

Was this article helpful?

「CVPR 2023のメモ」

データサイエンティストのためのGitの深い探求

機械学習

AIを活用した「ディープフェイク」詐欺：ケララ州のスキャマーに対する継続的な戦い

「生成型AIのGPT-3.5からGPT-4への移行の道程」

作曲家：AIツールを使った投資の学び方

開発者の皆さんへ：ダイアグラムはそんなに複雑である必要はありません

Google DeepMind（グーグルディープマインド）が「GNoME（グノーム）」を発表：新素材の安定性を予測し、探索の速度と効率を劇的に向上させる新しいディープラーニングツール

「LangChainエージェントを使用してLLMをスーパーチャージする方法」