ボストン大学の研究者たちは、プラチプスファミリーと称されるファインチューニングされたLLMsを公開しました:ベースLLMsの安価で高速かつパワフルな改良を実現するために

Boston University researchers have released fine-tuned LLMs called the Prachipus family achieving inexpensive, fast, and powerful improvements to base LLMs.

大規模言語モデル(LLM)は世界中で大きな注目を浴びています。これらの非常に効果的で効率的なモデルは、人工知能の最新の驚異として立ち現れています。文脈を理解し、テキストを生成し、論理的に対話する能力を持つことで、彼らは人間と機械の間のコミュニケーションを再定義する能力を備えています。研究者たちは、パラメータ効率のチューニング(PEFT)と呼ばれる手順によって、ベースの大規模言語モデルのパフォーマンスを向上させることに焦点を当てており、これは小規模で強力なOpen-Platypusデータセット上でLLMを最適化することを意味しています。

最近、ボストン大学の研究者チームが、Platypusという独自の改良と結合された大規模言語モデルの一群を紹介しました。これらのモデルは、比類のないパフォーマンスを達成し、現在HuggingFaceのOpen LLM Leaderboardでトップの位置を維持しています。Open-Platypusとして知られる厳選されたデータセットは、他の無料データセットから慎重に選ばれたもので、一般の人々にもアクセス可能になっています。これは、LLMのパフォーマンス向上に重要な要素に焦点を当てた大規模なデータセットの一部であり、注意深くカリキュレーションされています。

チームの目標は、ドメイン固有の情報を活用しながら、事前学習されたLLMの強力な事前知識を維持し、LoRAモジュールを微調整およびマージすることです。より包括的な知識を初期トレーニング中に蓄積するため、モデルは特定のタスクに合わせて調整することができます。LoRAモジュールが組み合わさることで、より強力なLLMが生み出されます。シナジーのおかげで、モデルの潜在能力と専門的なドメイン知識が明らかになります。

この研究の重要な側面の一つは、テストデータの正確性を検証し、トレーニングデータ内の潜在的な汚染を特定するために行われた徹底した取り組みです。Platypusシリーズのモデルの信頼性と正確性をサポートする包括的なチェックがいくつかあり、この検証手順の方法を公開することは、さらなる現地調査の手引きとなる可能性があります。

モデルのサイズが異なるPlatypusファミリーは、量的なLLMメトリックで優れたパフォーマンスを発揮しています。これは、戦略の効果を証明するOpen LLM Leaderboardのトップに位置しています。チームは、彼らのモデルが他の最先端の微調整されたLLMと同等のパフォーマンスを発揮する一方で、微調整データと計算リソースの一部しか使用していないことを共有しています。例えば、13BのPlatypusモデルは、たったの5時間で単一のA100 GPUとわずか25,000の質問を使用して成功裏にトレーニングすることができます。この驚異的な効率性は、Open-Platypusデータセットの優れた品質を強調し、この分野でのさらなる進展の道を切り開いています。

貢献は以下のようにまとめることができます:

  1. STEMおよび論理的な知識を強化するために導入された11の公開テキストデータセットからなるコンパクトなデータセットであるOpen-Platypus。
  1. このデータセットは、主に人間が設計した質問から構成されており、微調整時間とコストを最小限に抑えて強力なパフォーマンスを提供します。
  1. データセットのサイズと冗長性を減らすための類似データの除外プロセスの説明が共有されています。
  1. LLMトレーニングセットにおけるデータ汚染の課題とデータフィルタリングプロセスについて探求されています。
  1. 専門的に微調整されたLoRAモジュールの選択とマージアプローチの説明が共有されており、LLMの全体的なパフォーマンス向上に貢献しています。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Related articles

Discover more

データサイエンス

「ミストラル・トリスメギストス7Bにお会いしてください:神秘的で霊的なオカルトの知恵伝統に関する指示データセット...」

ミストラル・トリスメギストス7Bは、Google AIによって開発された巨大な言語モデルであり、巨大な文学とコードのデータセット...

機械学習

Google AIがSpectronを導入:スペクトログラムを入力および出力として直接処理する、最初のスポークンランゲージAIモデルとしてエンドツーエンドでトレーニングされたものです

音声継続および質疑応答型のLLMsは、さまざまなタスクや産業に適用できる多才なツールであり、生産性の向上、ユーザーエクス...

機械学習

「FraudGPTと出会ってください:ChatGPTのダークサイドの双子」

ChatGPTは人々の仕事やオンラインでの検索内容に影響を与え、人気を集めています。AIチャットボットの潜在能力に興味を持つ人...

機械学習

「事前学習済みのテキストからイメージへの拡散モデルを用いたポイントクラウドの補完」

ポイントクラウドという言葉を聞いたことがありますか?それは、オブジェクトや環境のジオメトリと空間属性を記述する三次元...

データサイエンス

PyCharm vs. Spyder 正しいPython IDEの選択

PyCharmとSpyderはPython開発のための2つの最も人気のあるIDEですでは、PyCharmとSpyderの直接比較を見てみましょう

機械学習

「2024年に探索する必要のある10の最高のGPU」

イントロダクション 人工知能(AI)、機械学習(ML)、深層学習(DL)の時代において、驚異的な計算リソースの需要は最高潮に...