MPT-7Bを紹介します:新しいオープンソースLLM

Introducing MPT-7B A new open-source LLM.

現在、大規模言語モデル(LLM)は大流行しています。しかし、組織としては、適切なリソースがないと、大規模言語モデルの波に乗ることは困難です。大規模言語モデルのトレーニングと展開は困難であり、突然置いてけぼりにされたように感じます。MetaのLLaMAシリーズなど、オープンソースのLLMにより、LLMリソースが利用可能になりました。

そして、オープンソースのコレクションに加わるのは、MosaicML Foundationsのシリーズの最新作、MPT-7Bです。

MPT-7Bとは?

MPTは、MosaicML Pretrained Transformerの略です。MPTモデルは、多くの改善点を備えたGPTスタイルのデコーダー専用トランスフォーマーです。

  • パフォーマンス最適化のレイヤー実装
  • アーキテクチャの変更によるトレーニングの安定性向上
  • 文脈の長さの制限がない

MPT-7Bは、1兆トークンのテキストとコードを使用して、ゼロの人的介入で9.5日間でMosaicMLプラットフォームでトレーニングされたトランスフォーマーモデルです。MosaicMLの費用は約20万ドルです。

それはオープンソースであり、商用利用が可能であり、このツールはビジネスや組織が予測分析や意思決定プロセスに取り組む方法を変えることになります。

MPT-7Bの主な特徴は以下です:

  • 商用利用にライセンスされています
  • 大量のデータ(1兆トークン)でトレーニングされています
  • 極めて長い入力を処理できます
  • 高速なトレーニングと推論のために最適化されています
  • 非常に効率的なオープンソーストレーニングコードです。

MPT-7Bは、基本モデルであり、他のオープンソースの7B-20Bモデルよりも優れていることが示されています。MPT-7Bの品質はLLaMA-7Bに匹敵します。MosaicML Foundationは、品質を評価するために11のオープンソースベンチマークを用意し、業界標準の方法で評価しました。

MosaicML Foundationsは、3つの追加のファインチューンモデルもリリースします:

  1. MPT-7B-Instruct
  2. MPT-7B-Chat
  3. MPT-7B-StoryWriter-65k+

MPT-7B-Instruct

MPT-7B-Instructモデルは、短い形式の指示文に従います。2021年5月14日時点で26,834件があり、簡単な質問をした場合には、すぐに回答が得られます。質問があって、単純な回答が必要な場合は、MPT-7B-Instructを使用してください。

なぜこれが素晴らしいのでしょうか?通常、LLMは提供された入力に基づいてテキストの生成を続けるように教育されます。しかし、入力を指示として扱うLLMが必要な場合があります。指示ファインチューニングにより、LLMは指示に従う出力を実行できます。

MPT-7B-Chat

はい、また別のチャットボットが登場しました。MPT-7B-Chatは、対話を生成します。たとえば、コンテキストを与えてスピーチを生成するようにチャットボットに依頼した場合、会話形式のテキストが生成されます。また、記事から段落を言い換えたツイートを書きたい場合は、対話を生成することができます!

なぜこれが素晴らしいのでしょうか?MPT-7B Chatは、さまざまな会話タスクに対応するために準備が整っており、ユーザーにとってよりシームレスで魅力的なマルチターンの対話を提供します。

MPT-7B-StoryWriter-65k+

これは物語作家向けです!長い文脈を持つ物語を書きたい人のために、MPT-7B-StoryWriter-65k+はそのように設計されたモデルです。MPT-7Bを65kトークンの文脈長でファインチューニングして構築されたモデルであり、65kトークンを超えた推定も可能です。MosaicML Foundationは、A100-80GB GPUの単一ノードで84kトークンを生成することができました。

なぜこれが素晴らしいのか?これは、ほとんどのオープンソースのLLMが数千トークンまでのシーケンスしか処理できないためです。しかし、MosaicMLプラットフォームの8xA100-80GBの単一ノードを使用するだけで、MPT-7Bをファインチューニングして、最大65kのコンテキスト長を処理できます!

MPT-7Bの構築についての詳細

MosaicMLチームはわずか数週間でこれらのモデルを構築しました。データの準備、トレーニング、ファインチューニング、デプロイメントにわずか数週間しかかかりませんでした。

データは様々なソースから取得され、各ソースで10億トークンが利用可能でした。有効なトークン数は各ソースで10億になりました!チームは、EleutherAIの、GPT-NeoX、および20Bトークナイザーを使用して、多様なデータでトレーニングを行い、一貫したスペース区切りを適用し、その他の処理を行いました。

すべてのMPT-7Bモデルは、Oracle CloudのA100-40GBおよびA100-80GB GPUを使用して、MosaicMLプラットフォームでトレーニングされました。

MPT-7Bのツールやコストについて詳しく知りたい場合は、MPT-7Bブログを読んでください。

まとめ

MosaicMLプラットフォームは、組織がカスタムLLMを構築するための最適な出発点と考えられます。このオープンソースのリソースが利用可能であることにより、組織はこれらのツールを利用して現在の組織上の課題を改善することにより自由に感じることができます。

顧客は、任意のコンピューティングプロバイダーやデータソースでLLMをトレーニングでき、効率性、プライバシー、コストの透明性を維持できます。

MPT-7Bをどのように使用する予定ですか?以下のコメントでお知らせください。Nisha Aryaは、VoAGIのデータサイエンティスト、フリーランスのテクニカルライター、コミュニティマネージャーです。彼女は特に、データサイエンスのキャリアアドバイスやチュートリアル、理論的な知識を提供することに興味があります。また、人間の寿命の長さに人工知能がどのように貢献できるかを探求したいと思っています。彼女は、他の人を指導しながら自分の技術的な知識と文章力を広げ、向上させることを目指しています。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

データサイエンス

「衛星データ、山火事、そしてAI:気候の課題に立ち向かうワイン産業の保護」

「オーストラリアは、世界で5番目に大きなワイン輸出国としてランク付けされており、ワインの世界で重要な位置を占めています...

データサイエンス

ジェネラティブAIを通じた感情分析のマスタリング

イントロダクション センチメント分析は、企業が顧客のフィードバックを理解し対応する方法を革新しました。顧客のセンチメン...

機械学習

「埋め込みを使った10の素敵なこと!【パート1】」

「クラシックな機械学習(ML)から一歩踏み出して、埋め込みはほとんどのディープラーニング(DL)のユースケースの中核です...

データサイエンス

ChatGPTの応用:産業全体におけるポテンシャルの開放

チャットGPTの応用は、仕事や家庭のあらゆる分野で私たちの生活を変えつつありますしかし、どのようにビジネスはそれを成長に...

データサイエンス

「Data Enthusiasts向けにエキサイティングな新機能を解放するChatGPT Plus」

OpenAIは、この最先端のAIとのコミュニケーション方法を完全に変えると約束するベータバージョンをリリースしています。これ...

コンピュータサイエンス

認知的な燃焼を引き起こす:認知アーキテクチャとLLMの融合による次世代コンピュータの構築

技術はシステムに統合されることで、ブレークスルーとなりますこの記事では、言語モデルを統合する取り組みについて探求し、...