『LLM360をご紹介します:最初の完全オープンソースで透明な大規模言語モデル(LLM)』

『LLM360についてご紹介します:初の完全オープンソースで透明な大規模言語モデル(LLM)』

“`html

オープンソースの大規模言語モデル(LLM)であるLLaMA、Falcon、Mistralなどは、AIのプロフェッショナルや学者向けにさまざまな選択肢を提供しています。しかし、これらのLLMの大部分は、エンドモデルの重みや推論スクリプトなどの一部のコンポーネントだけが利用可能であり、技術的なドキュメントでは、一般的な設計の側面や基本的なメトリックに焦点を絞った内容が多いです。このアプローチでは、LLMのトレーニング手法の明確性が低下し、チームがトレーニング手順のさまざまな側面を継続的に解明するための努力が重複してしまいます。

Petuum、MBZUAI、USC、CMU、UIUC、UCSDの研究者チームが、LLM360を導入しました。これは、エンドツーエンドのLLMトレーニングプロセスを透明で再現可能にすることにより、オープンかつ協力的なAIの研究をサポートするイニシアチブです。LLM360は、トレーニングコードとデータ、モデルのチェックポイント、中間結果などのすべてをコミュニティに提供することを主張する、完全なオープンソースのLLMです。

LLM360に最も近いプロジェクトはPythiaであり、LLMの完全な再現性を目指しています。GPT-JやGPT-NeoXなどのEleutherAIモデルは、トレーニングコード、データセット、中間モデルのチェックポイントと共にリリースされており、オープンソースのトレーニングコードの価値を示しています。INCITE、MPT、OpenLLaMAは、トレーニングコードとトレーニングデータセットがリリースされ、RedPajamaも中間モデルのチェックポイントを公開しています。

LLM360は、AMBERとCRYSTALCODERの2つの7BパラメータLLMをリリースし、そのトレーニングコード、データ、中間チェックポイント、分析も提供します。事前トレーニングデータセットの詳細、データの前処理、フォーマット、データミキシングの比率、LLMモデルのアーキテクチャの詳細については、研究で詳しく説明されています。

この研究では、以前の研究で導入された記憶スコアの使用と、メトリック、データチャンク、チェックポイントの公開により、研究者が対応関係を容易に見つけることができるようになることを示しています。研究ではまた、LLMが事前にトレーニングされたデータを削除することの重要性や、データのフィルタリング、処理、トレーニング順序の詳細についても強調しています。

研究では、ARC、HellaSwag、MMLU、TruthfulQAの4つのデータセットについてのベンチマーク結果が示され、モデルの事前トレーニング中のパフォーマンスが示されています。HellaSwagとARCの評価スコアはトレーニング中に単調に増加し、TruthfulQAのスコアは減少します。MMLUのスコアは最初に減少し、その後成長します。AMBERのパフォーマンスはMMLUなどのスコアで競争力があるものの、ARCでは遅れています。ファインチューニングされたAMBERモデルは、他の類似モデルと比較して強力なパフォーマンスを示します。

LLM360は、オープンソースLLMの完全かつ包括的なイニシアチブであり、オープンソースのLLM事前トレーニングコミュニティ内での透明性を推進するものです。この研究では、AMBERとCRYSTALCODERの2つの7B LLMをトレーニングコード、データ、中間モデルのチェックポイント、分析と共にリリースしています。研究では、チェックポイント、データチャンク、評価結果を公開することにより、包括的な分析と再現性を可能にするため、すべての角度からLLMをオープンソース化することの重要性を強調しています。

“`

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

機械学習

「生成AIの風景を探索する」

ジェネレーティブAIは、特にニューラルネットワークを用いて、与えられたデータセット内のパターンを解読するために、さまざ...

AIニュース

「AIによる気候変動対策の加速」

「ボストン・コンサルティング・グループとの新しいレポートによると、AIは世界の温室効果ガス排出量の5〜10%を軽減する可能...

データサイエンス

PatchTST 時系列予測における画期的な技術革新

トランスフォーマーベースのモデルは、自然言語処理の分野(BERTやGPTモデルなど)やコンピュータビジョンなど、多くの分野で...

人工知能

ウェブコンテンツの選択肢と制御を進化させるための原則に基づいたアプローチ

私たちは、Webパブリッシャーの選択肢とコントロールを提供するための新しい機械可読手段の開発に向けて、WebおよびAIコミュ...

AI研究

「UCLAの研究者たちは、広帯域の回折光学ニューラルネットワークに基づいて設計されたマルチスペクトルQPIシステムを紹介する」

量子位相イメージング(QPI)は、多くの科学および顕微鏡の分野での最先端のイメージング手法です。透明または半透明の材料を...

人工知能

「クロード2 AIチャットボットの使い方 - 新しいChatGPTの競合者」

イントロダクション 複数のAIチャットボットの中でも新たな競争相手、Claude 2に会いましょう。Anthropicによって開発されたC...