この人工知能ベースのタンパク質言語モデルは、汎用のシーケンスモデリングを解除します

This AI-based protein language model unlocks general sequence modeling.

人々が生命の言語を学ぶ方法は、自然言語の構文意味とタンパク質のシーケンス機能を比較することによって根本的に変わりました。この比較は、NLPのプロテインドメインへの応用を向上させた歴史的なマイルストーンとしての固有の価値を持っていますが(言語モデルなど)、NLPの領域の結果は完全にプロテインの言語に翻訳されているわけではありません。NLPモデルのサイズをスケーリングアップするだけでなく、プロテインの言語モデルのスケーリングアップは、NLPモデルのサイズをスケーリングアップするよりもはるかに大きな影響を与える可能性があります。

巨大なパラメータ数で訓練された言語モデルが多数のステップで訓練を受けても、まだ学習グラデーションが顕著であり、過適合と見なされる傾向があります。そのため、モデルのサイズと学習された表現の豊かさとの間に比例関係があるという誤解が生じます。その結果、より正確または関連性のあるプロテイン表現を選択することは、徐々により大きなモデルを選択することに変わってきています。これには、より多くの計算能力が必要であり、したがってアクセスしにくくなります。特に、PLMのサイズは最近106から109のパラメータに増加しました。彼らは、ProtTransのProtT5-XL-U50を利用して、UniRef50データベースで事前に訓練されたエンコーダーデコーダートランスフォーマを使用して、トレーニング用のパラメータが3B、推論用のパラメータが1.5Bであるサイズパフォーマンスのベンチマークを基にしています。これにより、プロテイン言語モデルの最新の最先端技術が明らかになりました。

プロテイン配列モデリングのスケーリング原則を開発するために、その方向性の第一歩であるRITAファミリーの言語モデルを使用して、モデルのパフォーマンスがサイズによってどのように変化するかを示しました。RITAは、85Mから300M、680M、1.2Bのパラメータに比例してサイズが増加する4つの代替モデルを提供します。同様のパターンが後にProGen2によって確認されました。これは、さまざまなシーケンシングデータセットでトレーニングされ、6.4Bのパラメータを含むプロテイン言語モデルのコレクションです。最後に、この研究が公開された時点では、ESM-2は、650Mから3B、15Bのパラメータに比例してサイズが増加する一般的なプロテイン言語モデルの調査であり、モデルのスケーリングアップを推奨する最新の追加です。

より大きくて明らかに優れたPLMの間にある単純な関係は、コンピューティングコストやタスクに依存しないモデルの設計と展開など、いくつかの要素を無視しています。これにより、革新的な研究への参入のハードルが高くなり、スケールする能力が制限されます。モデルのサイズは確かに上記の目標の達成に影響を与えることは疑いようがありませんが、それが唯一の要素ではありません。同じ方向に向けた事前訓練データセットのスケーリングは条件付きであり、つまり、より大きなデータセットが常により品質の高い小さなデータセットよりも好ましいわけではありません。彼らは、言語モデルのスケーリングアップは条件付きであり、最適化のためのプロテインの知識によってガイドされた手段の小さなモデルよりも大きなモデルが必ずしも優れているわけではないと主張しています。

この研究の主な目標は、知識による最適化を反復的な経験的フレームワークに組み込み、実用的なリソースを通じて研究のイノベーションへのアクセスを促進することです。彼らのモデルは、その「文字」であるアミノ酸のより良い表現を学ぶことによって、生命の言語を「解放」するためのものであり、そのために彼らのプロジェクトを「アンク」と名付けました(生命の鍵を示す古代エジプトの記号に言及しています)。これは、アンクの一般性と最適化を評価するための2つの証拠としてさらに開発されています。

High-N(ファミリーベース)およびOne-N(シングルシーケンスベース)のアプリケーションにおけるプロテインエンジニアリングのための世代研究は、入力シーケンスの数であるNの範囲の構造と機能のベンチマークのパフォーマンスを上回るための第一歩です。第二のステップは、モデルのアーキテクチャだけでなく、モデルの作成、トレーニング、展開に使用されるソフトウェアやハードウェアなど、最適な属性の調査によってこのパフォーマンスを達成することです。アプリケーションのニーズに応じて、Ankh bigとAnkh baseという2つの事前訓練モデルを提供しています。それぞれ2つの計算方法を提供しています。彼らは、AnkhのフラッグシップモデルであるAnkh bigを便宜上Ankhと呼んでいます。事前訓練済みのモデルは、彼らのGitHubページで入手可能です。コードベースの実行方法も詳細に説明されています。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

AIニュース

AIが宇宙へ!NASAがChatGPTのようなチャットボットを宇宙船通信に導入予定

興味深い進展として、NASAのエンジニアたちは地球の境界を超えて人工知能(AI)を宇宙にもたらす取り組みを始めています。最...

機械学習

このAIニュースレターは、あなたが必要とするすべてです #56

今週、オープンソースとクローズドモデルの両方で、LLMの世界にいくつかの新しい競合他社が登場しました印象的な機能を持つに...

データサイエンス

「AI企業がソフトウェア供給チェーンの脆弱性に対して被害を受けた場合、何が起こるのか」

OpenAIの侵害を見て、AI企業SSCのハッキングとその可能な影響を推測する自分自身を守るために何ができるか?

機械学習

「このAIニュースレターはあなたが必要とするもの全てです #69」

Googleは、MicrosoftやAdobeといった企業に続き、彼らが提供するAIサービスの利用者を知的財産権侵害に関する訴訟から保護す...

機械学習

大規模言語モデルの探索 -Part 1

この記事は主に自己学習のために書かれていますそのため、広範囲かつ深い内容です興味のあるセクションをスキップしたり、自...

AI研究

このAI研究では、LSS Transformerを発表しましたこれは、Transformerにおける効率的な長いシーケンスの学習を革新的なAIアプローチで実現します

新しいAI研究では、Long Short-Sequence Transformer (LSS Transformer)という効率的な分散学習手法が紹介されました。この手...