「新しいAI研究は、3D構造に基づいたタンパク質表現学習のためのシンプルで効果的なエンコーダーを提案する」

提案する新しいAI研究は、3D構造に基づいたタンパク質表現学習のためのシンプルで効果的なエンコーダー

細胞のエネルギーであるタンパク質は、材料や治療など、さまざまなアプリケーションに関与しています。タンパク質はアミノ酸鎖からなり、特定の形状に折りたたまれます。低コストのシーケンシング技術の発展により、最近では多くの新しいタンパク質配列が見つかっています。新しいタンパク質配列の機能注釈はまだ高コストで時間がかかるため、正確かつ効果的なインシリコタンパク質機能注釈方法が必要です。

多くのデータ駆動型のアプローチは、タンパク質構造の表現を学習することに依存しています。なぜなら、多くのタンパク質の機能は、折りたたまれ方によって制御されているからです。これらの表現は、タンパク質の設計、構造分類、モデルの品質評価、機能予測などのタスクに適用することができます。

実験的なタンパク質構造の同定が困難であるため、公開されたタンパク質構造の数は他の機械学習アプリケーション分野のデータセットの数に比べて桁違いに少ないです。たとえば、タンパク質データバンクには182,000個の実験的に確認された構造がありますが、Pfamには4,700万個のタンパク質配列、ImageNetには1,000万個の注釈付き画像があります。いくつかの研究では、未ラベルのタンパク質配列データの豊富さを活用して、既存のタンパク質の適切な表現を作成し、この表現のギャップを埋めるためにセルフスーパーバイズドラーニングを使用して、数百万の配列でプリトレーニングしたタンパク質エンコーダを開発しました。

正確な深層学習ベースのタンパク質構造予測技術の最近の進歩により、多くのタンパク質配列の構造を効果的かつ自信を持って予測することが可能になりました。ただし、これらの技術は、タンパク質の機能を決定するために既知のタンパク質構造に関する情報を特に捉えたり使用したりしないです。構造ベースのタンパク質エンコーダは、より良い構造情報の利用のために提案されています。残念ながら、タンパク質構造をシミュレーションする上で重要なエッジ間の相互作用は、これらのモデルでは明示的に扱われていません。また、実験的に確立されたタンパク質構造の不足のため、3D構造の未ラベルのデータを活用するプリトレーニング技術の開発は、最近までほとんど行われていませんでした。

この進歩に触発されて、彼らはさまざまな特性予測アプリケーションに適用できるタンパク質エンコーダを作成し、最も実現可能なタンパク質構造上でプリトレーニングされます。彼らは、ジオメトリに注意した関係グラフニューラルネットワークという簡単かつ効率的な構造ベースのエンコーダを提案しています。このエンコーダは、さまざまな構造または順序エッジを含め、タンパク質残基グラフ上で関係メッセージパッシングを行います。彼らは、タンパク質構造エンコーダを改善するための疎なエッジメッセージパッシング技術を提案しています。これは、タンパク質構造エンコーディングにおいてエッジレベルのメッセージパッシングをGNNに初めて実装した取り組みです。彼らのアイデアは、Evoformerの三角形注意の設計に触発されました。

彼らはまた、タンパク質構造エンコーダを学習するためのよく知られた対比学習フレームワークに基づく幾何学的なプリトレーニングアプローチを提供しています。彼らは、同じタンパク質からのサブストラクチャの獲得表現間の類似性を高め、異なるタンパク質からの類似性を減少させる革新的なオーグメンテーション関数を提案しています。これにより、タンパク質中で共起する生理学的に関連するタンパク質サブストラクチャを見つけることができます。彼らは同時に、セルフ予測に基づいた一連のシンプルなベースラインも提案しています。

彼らは、プリトレーニング手法をいくつかの下流の特性予測タスクに対して比較することで、タンパク質構造表現のプリトレーニングの基盤を確立しました。これらのプリトレーニング問題には、残基の種類、ユークリッド距離、ジヒドラル角などのさまざまな幾何学的または物理化学的特性のマスクされた予測が含まれます。酵素コミッション番号の予測、遺伝子オントロジー用語の予測、フォールドの分類、反応の分類など、さまざまなベンチマークを使用した多くのテストでは、エッジメッセージパッシングを備えたGearNetが、監督環境のほとんどのタスクで既存のタンパク質エンコーダよりも一貫して優れたパフォーマンスを発揮することが示されています。

さらに、提案されたプリトレーニング戦略を使用することで、100万以下のサンプルでトレーニングされたモデルは、1,000万または10億のデータセットでプリトレーニングされた最先端のシーケンスベースのエンコーダと同等またはそれ以上の結果を得ることができます。コードベースはGithubで公開されています。PyTorchとTorch Drugで書かれています。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

AI研究

広大な化学空間で適切な遷移金属を採掘する

計算化学者は、エネルギー応用のための材料を発見し、設計するためのより良い方法を設計します

データサイエンス

データセットシフトのフレームワークを整理する

私たちはモデルを訓練し、それらを使用して特定の結果を予測します入力のセットが与えられた場合に、それが機械学習のゲーム...

データサイエンス

私たちが知っていることを蒸留する

研究者たちは、大きなGPTモデルのサイズを削減しようとしています

データサイエンス

「人間の労働が機械学習を可能にする方法」

「私たちは機械学習の進歩に必要不可欠な手作業や人間の労働について十分に話しません事実は、技術と人間の活動の間に作り出...

AI研究

マイクロソフトの研究者は、テキスト重視の画像の機械読み取りのためのマルチモーダルリテラシーモデルであるKosmos-2.5を紹介しました

近年、大規模言語モデル(LLM)が人工知能の中で注目を浴びていますが、これまで主にテキストに焦点を当て、視覚的な内容の理...