この脳AIの研究では、安定した拡散を用いて脳波から画像を再現します

In this brain AI research, images are reproduced from brain waves using stable diffusion.

人間の視覚システムと似たように、世界を見て認識する人工システムを構築することは、コンピュータビジョンの重要な目標です。 人工ネットワークのアーキテクチャの特徴を生物学的脳の潜在的表現と比較することで、最近の人口脳活動測定の進歩と深層ニューラルネットワークモデルの実装と設計の改善により、脳活動から視覚画像を再構築することが可能になりました。 たとえば、機能的磁気共鳴イメージング(fMRI)によって検出される脳活動のようなものです。 これは魅力的ですが、脳の基礎となる表現はほとんどわかっておらず、脳データのサンプルサイズが通常小さいため、困難な問題です。

近年の学術研究では、教師なし学習や生成的対抗ネットワーク(GAN)、自己教師あり学習などの深層学習モデルや技術が、これらの課題に取り組むために使用されています。 ただし、これらの試みは、fMRI実験で使用される特定の刺激に対して微調整するか、fMRIデータを使用して新しい生成モデルをトレーニングする必要があります。 これらの試みは、脳科学データの量が少ないことと、複雑な生成モデルの構築に関連する複数の困難により、ピクセルごとの信頼性や意味の信頼性において非常に制約されたパフォーマンスを示しました。

拡散モデル、特に計算資源をあまり必要としない潜在的拡散モデルは、最近のGANの代替手段です。 しかし、LDMはまだ比較的新しいため、内部でどのように機能するかを完全に理解することは困難です。

大阪大学とCiNetの研究チームは、fMRI信号から視覚画像を再構築するためのLDMであるStable Diffusionを使用して、上記で述べた問題に取り組む試みを行いました。 彼らは、複雑な深層学習モデルのトレーニングや調整の必要性を排除し、高解像度で高い意味の信頼性を持つ画像を再構築することができる直感的なフレームワークを提案しました。

この調査で著者が使用したデータセットは、ナチュラルシーンデータセット(NSD)であり、各被験者が10,000枚の画像の3回のリピートを見た間に収集されたfMRIスキャナからのデータを提供しています。

出典:https://www.biorxiv.org/content/10.1101/2022.11.18.517004v2.full

まず、著者たちはLatent Diffusion Modelを使用してテキストから画像を作成しました。上の図(上部)では、zは生成された潜在表現であり、cは画像を説明するテキストの潜在表現であり、zcはオートエンコーダによって圧縮された元の画像の潜在表現と定義されています。

デコーディングモデルを分析するために、著者たちは3つのステップに従いました(上の図、中央)。まず、彼らは初期の視覚皮質(青)内のfMRI信号から提示された画像Xの潜在表現zを予測しました。 zはその後、デコーダによって粗い復号化画像Xzを生成するために処理され、次に拡散プロセスを経てエンコードされました。最後に、ノイズのある画像には、高次視覚皮質(黄色)内のfMRI信号からの復号化された潜在テキスト表現cが追加され、zcが作成されました。 zcから、デコーディングモジュールが最終的な再構築画像Xzcを生成しました。このプロセスに必要なトレーニングは、fMRI信号をLDMコンポーネントzc、z、およびcに線形にマッピングすることだけであることを強調しておくことが重要です。

zc、z、およびcから始めると、著者たちはエンコーディング分析を実施し、それらを脳活動にマッピングすることでLDMの内部動作を解釈しました(上の図、下部)。表現から画像を再構築した結果は以下の通りです。

出典:https://www.biorxiv.org/content/10.1101/2022.11.18.517004v2.full

単にzを使用して再作成された画像は、元の画像と視覚的な一貫性を持っていましたが、その意味的な価値は失われました。一方、cを使用して部分的に再構築された画像は、意味的な忠実度が高いが視覚的に不一致な画像を生成しました。zcを使用して回復された画像が高解像度の画像を作成し、意味的な忠実度も高いことで、この方法の妥当性が示されました。

脳の最終解析では、DMモデルに関する新しい情報が明らかになりました。脳の後ろにある視覚皮質では、全ての3つの要素が優れた予測性能を達成しました。特に、zは視覚皮質の後ろにある初期視覚皮質で強力な予測性能を提供しました。また、上部視覚皮質(視覚皮質の前部)でも強力な予測値を示しましたが、他の領域ではより小さな値でした。一方、上部視覚皮質では、cが最も優れた予測性能を示しました。

出典:https://www.biorxiv.org/content/10.1101/2022.11.18.517004v2.full

論文プロジェクトページをチェックしてください。この研究に関しては、このプロジェクトの研究者に全てのクレジットがあります。また、最新のAI研究ニュース、素晴らしいAIプロジェクトなどを共有している26k+ ML SubRedditDiscordチャンネルメールニュースレターにもぜひ参加してください。

Tensorleapの解釈性プラットフォームでディープラーニングの秘密を解き放つ

この脳AI研究は、安定した拡散によって脳波から画像を再現します。MarkTechPostで最初に表示された記事です。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

AI研究

UCバークレーとSJTU中国の研究者が、言語モデルのベンチマークと汚染を再考するための「再表現サンプル」の概念を紹介しました

大型言語モデルはますます複雑になり、評価が困難になっています。コミュニティは比較的短期間で多くのベンチマークを作成し...

データサイエンス

「フォンダンAIは、クリエイティブ・コモンズ・ライセンスに基づいた画像テキストのペアデータセット、フォンダン-25Mを公開しました」

大量のデータの処理と分析を行うことを大規模データ処理と呼びます。これには有益な洞察の抽出、情報に基づいた意思決定、複...

AI研究

HuggingFace Researchが紹介するLEDITS:DDPM Inversionと強化された意味的なガイダンスを活用したリアルイメージ編集の次なる進化

テキストガイド拡散モデルを利用した写真生成の現実感と多様性の向上により、関心が大幅に高まっています。大規模モデルの導...

機械学習

PyTorchEdgeはExecuTorchを発表しました:モバイルおよびエッジデバイス向けのオンデバイスでの推論をエンパワーメント

画期的な取り組みとして、PyTorch Edgeは新しいコンポーネント、ExecuTorchを導入しました。これはモバイルおよびエッジデバ...

AIニュース

「GPTクローラーに会ってください:サイトをクロールし、知識ファイルを生成し、1つまたは複数のURLからカスタムGPTを作成できるAIツール」

ウェブページから知識を抽出してユニークなGPTモデルを構築できるとしたら、どれほど素晴らしいことでしょうか。 あなた自身...

機械学習

「SwiggyがZomatoとBlinkitに続き、生成AIを統合する」

Swiggy(スウィギー)、有名なフードデリバリープラットフォームは、生成AIの可能性を活用し、食品と食料品の発見方法を変革...