アデプトAIラボは、Persimmon-8Bという強力なフルパーミッシブライセンスの言語モデルをオープンソース化しました

Adept AI Lab open-sourced the powerful, fully permissive language model called Persimmon-8B.

近年、人工知能の分野では、特に言語モデルの開発において著しい進歩が見られています。Marktechpost Mediaでは、様々なパラメータやSOTAの性能に基づく多くの言語モデルを取り上げてきました。このトレンドに続いて、今回はAdept AI LabsからPersimmon-8Bがリリースされました。Persimmon-8Bは8Bクラスのオープンソースで、完全に許容されるライセンスモデルです。このモデルは、さまざまなコンピュータ関連のタスクでユーザーをサポートすることを目的としており、広範なアプリケーションにおいて非常に大きな潜在能力を秘めています。ただし、生の形で使用すると、モデルが潜在的な有害性を持つ出力を生成する可能性があることに注意する必要があります。これは、より洗練された評価技術の必要性について重要な懸念を提起します。

より小さな言語モデルが印象的な能力を示してきましたが、Persimmon-8Bは大きな飛躍を遂げています。LLaMA2のコンテキストサイズの4倍、GPT-3などのモデルの8倍のコンテキストサイズを誇り、より洗練されたコンテキストに関連するタスクに対処できるようになっています。さらに、その性能は、データ量がはるかに少ないにも関わらず、同じサイズ範囲内の他のモデルと同等、もしくはそれ以上のパフォーマンスを発揮します。これは、モデルのトレーニングプロセスの効率性と効果を示しています。

Persimmon-8Bの能力を評価するために、Adeptチームは独自のアプローチを採用しています。暗黙の確率だけに頼るのではなく、モデルに回答を生成させるというより直接的なインタラクションによって評価を行っています。この方法論は、ユーザーが質問を投げかけて回答を予測する現実の言語モデルとの相互作用を反映しています。Adeptはプロンプトを公開することで、コミュニティによる再現と検証を招待しています。

その結果、Persimmon-8Bの能力は明白です。LLama 2やMPT 7B Instructなどの同じサイズ範囲の他のモデルと比較して、Persimmon-8B-FTはさまざまな指標において最も優れたパフォーマンスを発揮します。ベースモデルであるPersimmon-8B-Baseですら、データの一部しか使用していないにも関わらず、LLama 2と比較してほぼ同等のパフォーマンスを示します。これは、モデルが多様なタスクを処理する際の効率性と効果を強調しています。

技術的な詳細については、Persimmon-8Bはデコーダーのみのトランスフォーマーであり、いくつかのアーキテクチャの改良を備えています。通常の代替手段を上回る、二乗ReLU活性化と回転位置符号化を活用しています。モデルのチェックポイントは約93億のパラメータを含み、効率的なトレーニングが最適化されています。特に、入力と出力の埋め込みの分離は、トレーニングプロセスを効率化するシステムレベルの改良となっています。

推論速度に関しては、Persimmon-8Bは印象的なパフォーマンスを発揮します。最適化されたコードを使用することで、単一の80GB A100 GPU上で約56トークン/秒の生成が可能です。これにより、リアルタイムアプリケーションにおいて非常に効率的なツールとなります。

まとめると、Persimmon-8Bのリリースは言語モデルの分野における重要なマイルストーンです。その能力とAdeptが採用した革新的な評価手法は、対話型AIアプリケーションの新たな時代を切り開いています。このモデルをオープンソース化することで、Adeptはコミュニティに対してその基盤を築き、このダイナミックな分野におけるさらなるイノベーションを推進することを招待しています。モデルの採用が広がるにつれて、人々がコンピュータシステムとの対話を革新するさまざまなドメインで応用される可能性が高まるでしょう。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

AIニュース

「AutoGenを使った戦略的AIチームビルディングが簡単になりました」

イントロダクション デジタルフロンティアが無限の領域に達し、AutoGenは変革的なパラダイムの設計者として現れます。異なる...

データサイエンス

2023年にフォローすべきAI YouTuberトップ15選

人工知能は現在、さまざまな分野で指数関数的な成長を遂げています。その拡大により、この領域は学び、マスターするための数...

AIニュース

「比喩的に言えば、ChatGPTは生きている」

ChatGPTの成長は年々劇的に進んできました最近、OpenAIはChatGPTが聞くこと、見ること、話すことができるようになったことを...

AI研究

UCLAとCMUの研究者が、優れた中程度範囲の天気予報のためのスキルと信頼性のあるスケーラブルなトランスフォーマーニューラルネットワーク「ストーマー」を紹介しました

現在、科学と社会が直面している主な問題の一つは天気予報です。正確な天気予報は、自然災害や極端な天候事象に対処し、回復...

AIニュース

「企業がGoogle Cloud AIを利用する7つの方法」

「Google Cloud Next 2023では、数千人がサンフランシスコに集まり、Google Cloudの最新アップデートについて学びました」

データサイエンス

「ベクターデータベースは、生成型AIソリューションの未来をどのように形作るのか?」

紹介 生成AIの急速に進化する風景において、ベクトルデータベースの重要な役割がますます明らかになってきました。本記事では...