スタンフォード大学の研究者たちは、「HyenaDNA」という名前の遠距離ゲノム基盤モデルを導入しましたこのモデルは、シングルヌクレオチド解像度で最大1百万トークンのコンテキスト長を持っています

スタンフォード大学の研究者は、「HyenaDNA」という遠距離ゲノム基盤モデルを導入しましたこのモデルは、最大1百万トークンのコンテキスト長を持ち、シングルヌクレオチド解像度で機能します

過去数年間、人工知能(AI)の分野では急速な進歩があり、これにより産業を完全に変革し、可能性の限界を押し上げる可能性があります。研究者たちによって注目されている分野の一つは、自然言語のタスクにおいてより堅牢かつ効率的なモデルの開発です。この文脈では、研究者たちはモデルがテキストを処理し理解する能力を決定するトークンの数を増やすことで、より長いトークンを処理できるモデルの開発に取り組んでいます。さらに、より多くのトークンを持つことにより、モデルはより広範なコンテキストを考慮に入れることができ、大規模なデータシーケンスを処理することができます。ただし、長期のコンテキストモデルに関しては、自然言語に対して大部分の関心が向けられており、長いシーケンスを扱うこと自体が本質的な問題であるジェノミクスには重要な見落としがあります。ジェノミクスは、生物の遺伝的な材料の構造、進化的要素などの異なる側面を研究することを含む分野です。自然言語モデルと同様のアプローチを取り入れ、研究者たちはジェノミクスにおいても非構造化のゲノムデータから一般的な特徴を獲得するために基礎モデル(FM)の使用を提案しています。これらのFMは、遺伝子の位置特定、制御要素の識別などのさまざまなタスクに対してファインチューニングすることができます。

しかし、Transformerアーキテクチャに基づいた既存のゲノムモデルは、DNA配列の処理において固有の課題に直面しています。そのような制限の一つは、DNA内の長距離相互作用のモデリングを制限するアテンションの二次スケーリングです。さらに、一般的なアプローチでは、有意義なDNA単位を集約するために固定されたk-merとトークナイザを使用しますが、これにより個々のDNAの特徴が失われることがあります。しかし、自然言語とは異なり、この損失は重要です。なぜなら、微妙な遺伝的な変異でもタンパク質の機能に深刻な影響を与える可能性があるからです。最近導入されたHyenaというLLMは、暗黙の畳み込みを利用することで、アテンションベースのモデルに対する有望な代替手法として登場しました。この革新的なアプローチにより、長いコンテキストの長さを処理できるようになり、計算時間の複雑さを大幅に削減しながら、アテンションベースのモデルと同等の品質を示しました。これらの発見に触発され、スタンフォード大学とハーバード大学の研究者チームは、Hyenaの能力を活用して、ゲノミックシーケンスの分析に必要な本質的な長距離の依存関係と個々のDNAの特徴を効果的に捉えることができるかどうかを調査しました。

これにより、HyenaDNAの開発が行われました。これは、既存のアテンションベースのモデルに比べて、単一ヌクレオチドレベルで最大100万トークンのコンテキスト長を処理できる前例のない能力を持つゲノミックFMです。Hyenaの長距離能力を活用することで、HyenaDNAはFlashAttentionを装備したTransformerよりも160倍高速に訓練することができます。HyenaDNAは、DNAとその複雑な相互作用をモデル化するために、Hyenaオペレータのスタックを利用しています。このモデルは非教示学習を使用してDNA配列の分布を学習し、遺伝子がどのようにエンコードされ、非コーディング領域が遺伝子発現の制御機能を果たすかを理解します。このモデルは、長距離種分類タスクなどのいくつかの難しいゲノムタスクで優れた性能を発揮します。さらに、少ないパラメータと事前トレーニングデータを使用しながら、Nucleotide Transformerに比べて17のデータセットのうち12つで最先端の結果を達成します。

前述のように、HyenaDNAは事前トレーニング中に最大100万トークンのコンテキスト長を実現し、ゲノム配列内の長距離の依存関係を効果的に捉えることができます。さらに、各層で利用可能なグローバルコンテキストを持つ単一ヌクレオチドの分解能とトークナイゼーションを利用して、モデルの能力をさらに向上させています。トレーニングの不安定さに対処し、プロセスをさらに迅速化するために、研究者たちはシーケンス長ウォームアップスケジューラを導入しました。これにより、種分類に関連するタスクのトレーニング時間が40%削減されました。HyenaDNAのもう一つの重要な利点は、パラメータの効率性です。研究者たちはモデルサイズと品質の関係について画期的な観察を行い、長いシーケンスと小さなボキャブラリーを持つ場合でも、HyenaDNAは以前のゲノミックFMに比べて大幅にサイズが小さいにもかかわらず、優れたパフォーマンスを発揮することを示しています。

研究者たちはHyenaDNAのパフォーマンスをいくつかのダウンストリームタスクで評価しました。GenomicBenchmarksデータセットでは、事前トレーニングモデルは以前のアプローチを大幅に上回る最先端のパフォーマンスを発揮しました。さらに、Nucleotide Transformerからのベンチマークでは、HyenaDNAは12つのデータセットで最先端の結果を達成し、パラメータが少なく、事前トレーニングデータも少ないことが特徴です。また、ジェノミクスにおけるコンテキスト内学習(ICL)の潜在能力を探るために、研究者たちは一連の実験を行いました。彼らはソフトプロンプトトークンの概念を導入し、凍結された事前トレーニングされたHyenaDNAモデルの入力が重みの更新やデコーダヘッドの追加なしで出力をガイドすることができるようにしました。ソフトプロンプトトークンの数を増やすことで、GenomicBenchmarksデータセットの精度が著しく向上しました。このモデルは、超長距離タスクにおいても優れた性能を発揮します。HyenaDNAは、難しいクロマチンプロファイルタスクにおいて、SOTAのスパーストランスフォーマモデルであるBigBirdと効果的に競合します。さらに、超長距離種分類タスクでは、コンテキスト長を450Kと1Mトークンに増やした場合でも、成功した結果を達成します。

これらの結果は、HyenaDNAが複雑なゲノムタスクを処理する能力と、長距離依存性と種の差異を解決する可能性を強調しています。彼らは、この進歩がAI支援の薬剤探索と治療イノベーションにおいて重要であると予想しています。さらに、これによりゲノム基盤モデルが個別の方法で患者のゲノム全体を学習・分析する能力が可能になり、ゲノムの理解と応用がさらに向上する可能性があります。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

データサイエンス

なぜデータは新たな石油ではなく、データマーケットプレイスは私たちに失敗したのか

「データは新しい石油」というフレーズは、2006年にクライブ・ハンビーによって作られ、それ以来広く反復されてきましたしか...

AI研究

この中国のAI研究は「Consistent4D」を紹介します:未キャリブレーションの単眼映像から4Dダイナミックオブジェクトを生成するための新しい人工知能手法

コンピュータビジョンの領域は、視覚的な入力から動的な3Dデータを解読するという基礎的で困難な課題に取り組んでいます。こ...

AI研究

このAI研究では、詳細な全身のジオメトリと高品質のテクスチャを持つ、リアルな3Dの服を着た人物を、単一の画像から再構築するためのテクノロジー(TeCH)を提案します

ハイフィデリティ ゲーム、ソーシャルネットワーキング、教育、eコマース、没入型テレプレゼンスなど、多くの拡張現実と仮想...

データサイエンス

スタンフォードの研究者たちは、基礎流体力学のための初の大規模な機械学習データセットであるBLASTNetを紹介しました

スタンフォードの研究者たちは、BLASTNetという画期的な開発を紹介し、計算流体力学(CFD)の新たな時代の到来を予感させまし...

AIニュース

AWS CDK を使用して Amazon SageMaker Studio ライフサイクル構成をデプロイします

Amazon SageMaker Studioは、機械学習(ML)のための最初の完全に統合された開発環境(IDE)ですStudioは、データを準備し、...

機械学習

「RecMindと出会ってください:推薦タスクのための推論、行動、およびメモリを組み合わせた大規模言語モデル技術によって駆動される自律型の推薦エージェント」

人工知能とディープラーニングの人気が高まるにつれて、ほぼすべてのアプリケーションがAIの能力を利用して作業を進めていま...