MPT-7Bを紹介します:新しいオープンソースLLM

Introducing MPT-7B A new open-source LLM.

現在、大規模言語モデル(LLM)は大流行しています。しかし、組織としては、適切なリソースがないと、大規模言語モデルの波に乗ることは困難です。大規模言語モデルのトレーニングと展開は困難であり、突然置いてけぼりにされたように感じます。MetaのLLaMAシリーズなど、オープンソースのLLMにより、LLMリソースが利用可能になりました。

そして、オープンソースのコレクションに加わるのは、MosaicML Foundationsのシリーズの最新作、MPT-7Bです。

MPT-7Bとは?

MPTは、MosaicML Pretrained Transformerの略です。MPTモデルは、多くの改善点を備えたGPTスタイルのデコーダー専用トランスフォーマーです。

  • パフォーマンス最適化のレイヤー実装
  • アーキテクチャの変更によるトレーニングの安定性向上
  • 文脈の長さの制限がない

MPT-7Bは、1兆トークンのテキストとコードを使用して、ゼロの人的介入で9.5日間でMosaicMLプラットフォームでトレーニングされたトランスフォーマーモデルです。MosaicMLの費用は約20万ドルです。

それはオープンソースであり、商用利用が可能であり、このツールはビジネスや組織が予測分析や意思決定プロセスに取り組む方法を変えることになります。

MPT-7Bの主な特徴は以下です:

  • 商用利用にライセンスされています
  • 大量のデータ(1兆トークン)でトレーニングされています
  • 極めて長い入力を処理できます
  • 高速なトレーニングと推論のために最適化されています
  • 非常に効率的なオープンソーストレーニングコードです。

MPT-7Bは、基本モデルであり、他のオープンソースの7B-20Bモデルよりも優れていることが示されています。MPT-7Bの品質はLLaMA-7Bに匹敵します。MosaicML Foundationは、品質を評価するために11のオープンソースベンチマークを用意し、業界標準の方法で評価しました。

MosaicML Foundationsは、3つの追加のファインチューンモデルもリリースします:

  1. MPT-7B-Instruct
  2. MPT-7B-Chat
  3. MPT-7B-StoryWriter-65k+

MPT-7B-Instruct

MPT-7B-Instructモデルは、短い形式の指示文に従います。2021年5月14日時点で26,834件があり、簡単な質問をした場合には、すぐに回答が得られます。質問があって、単純な回答が必要な場合は、MPT-7B-Instructを使用してください。

なぜこれが素晴らしいのでしょうか?通常、LLMは提供された入力に基づいてテキストの生成を続けるように教育されます。しかし、入力を指示として扱うLLMが必要な場合があります。指示ファインチューニングにより、LLMは指示に従う出力を実行できます。

MPT-7B-Chat

はい、また別のチャットボットが登場しました。MPT-7B-Chatは、対話を生成します。たとえば、コンテキストを与えてスピーチを生成するようにチャットボットに依頼した場合、会話形式のテキストが生成されます。また、記事から段落を言い換えたツイートを書きたい場合は、対話を生成することができます!

なぜこれが素晴らしいのでしょうか?MPT-7B Chatは、さまざまな会話タスクに対応するために準備が整っており、ユーザーにとってよりシームレスで魅力的なマルチターンの対話を提供します。

MPT-7B-StoryWriter-65k+

これは物語作家向けです!長い文脈を持つ物語を書きたい人のために、MPT-7B-StoryWriter-65k+はそのように設計されたモデルです。MPT-7Bを65kトークンの文脈長でファインチューニングして構築されたモデルであり、65kトークンを超えた推定も可能です。MosaicML Foundationは、A100-80GB GPUの単一ノードで84kトークンを生成することができました。

なぜこれが素晴らしいのか?これは、ほとんどのオープンソースのLLMが数千トークンまでのシーケンスしか処理できないためです。しかし、MosaicMLプラットフォームの8xA100-80GBの単一ノードを使用するだけで、MPT-7Bをファインチューニングして、最大65kのコンテキスト長を処理できます!

MPT-7Bの構築についての詳細

MosaicMLチームはわずか数週間でこれらのモデルを構築しました。データの準備、トレーニング、ファインチューニング、デプロイメントにわずか数週間しかかかりませんでした。

データは様々なソースから取得され、各ソースで10億トークンが利用可能でした。有効なトークン数は各ソースで10億になりました!チームは、EleutherAIの、GPT-NeoX、および20Bトークナイザーを使用して、多様なデータでトレーニングを行い、一貫したスペース区切りを適用し、その他の処理を行いました。

すべてのMPT-7Bモデルは、Oracle CloudのA100-40GBおよびA100-80GB GPUを使用して、MosaicMLプラットフォームでトレーニングされました。

MPT-7Bのツールやコストについて詳しく知りたい場合は、MPT-7Bブログを読んでください。

まとめ

MosaicMLプラットフォームは、組織がカスタムLLMを構築するための最適な出発点と考えられます。このオープンソースのリソースが利用可能であることにより、組織はこれらのツールを利用して現在の組織上の課題を改善することにより自由に感じることができます。

顧客は、任意のコンピューティングプロバイダーやデータソースでLLMをトレーニングでき、効率性、プライバシー、コストの透明性を維持できます。

MPT-7Bをどのように使用する予定ですか?以下のコメントでお知らせください。Nisha Aryaは、VoAGIのデータサイエンティスト、フリーランスのテクニカルライター、コミュニティマネージャーです。彼女は特に、データサイエンスのキャリアアドバイスやチュートリアル、理論的な知識を提供することに興味があります。また、人間の寿命の長さに人工知能がどのように貢献できるかを探求したいと思っています。彼女は、他の人を指導しながら自分の技術的な知識と文章力を広げ、向上させることを目指しています。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

人工知能

5つの最高のChatGPT SEOプラグイン

SEOの専門家たちは、ChatGPTプラグインがGoogleのランキングを上げるのを助けるすばらしいツールであることに気づき始めています

データサイエンス

「すべてのオンライン投稿は、AIの所有物です」とGoogleが発表

Googleは最近のプライバシーポリシーの更新において、その強力なAIツールでよく知られていることから注目される注目すべき変...

人工知能

「C# で GPT(一般目的テンプレート)を拡張しましょう」

この記事では、OpenAIを使用してGPTを作成し、AINIRO.IO Magic Cloudを使用して独自のC#コードで拡張する方法を示しています

AIニュース

「サイバーセキュリティとAI、テキサスサイバーサミットの中心に」

「テキサスサイバーサミット2023のレビューに飛び込んでくださいAIがセキュリティに与える影響を知り、ゼロトラスト戦略につ...

機械学習

govGPT チャットボットによる市民体験の向上

この記事では、現在の市民体験に関連するいくつかの問題について議論し、LLMベースのチャットボットがその不備を解決できるこ...

AI研究

複雑なAIモデルの解読:パデュー大学の研究者が、ディープラーニングの予測を位相マップに変換

複雑な予測モデルの高度なパラメータ化の性質により、予測戦略の説明と解釈が困難です。研究者たちは、この問題を解決するた...