マイクロソフトリサーチは、競合モデルよりも大幅に小さいサイズで、Pythonコーディングに特化した新しい大規模言語モデルphi-1を紹介しました

Microsoft Research introduced a new large-scale language model, phi-1, which is significantly smaller in size than competing models and specialized for Python coding.

トランスフォーマーのデザインが発見されて以来、大規模な人工ニューラルネットワークのトレーニングの技術は飛躍的に進歩してきましたが、この成果の基礎となる科学はまだ幼い段階にあります。同じ時期にトランスフォーマーがリリースされたことで、圧倒的で混乱するような結果の中に秩序が出現し、計算量またはネットワークサイズを増やすと性能が予測可能に向上するというスケーリング則が判明しました。これらのスケーリング則は、深層学習におけるスケールの調査のためのガイドとして機能し、これらの則の変化の発見により性能が急激に向上しました。

本論文では、別の軸に沿ってデータ品質をどのように改善できるかを調査しています。高品質のデータはより良い結果を生み出します。たとえば、データのクリーニングは、現在のデータセットを作成するための重要なステップであり、比較的小さなデータセットまたはデータをより多くのイテレーションに通すことができます。ニューラルネットワークに英語を教えるために人工的に作成された高品質のデータセットであるTinyStoriesに関する最近の研究は、高品質のデータの利点がこれ以上のものであることを示しています。改良されたスケーリング則により、高品質のデータは大規模なモデルの性能を、よりシンプルなトレーニング/モデルで一致させることができるようになります。

この研究では、マイクロソフトリサーチの著者たちは、良質なデータが大規模言語モデル(LLMs)のSOTAをさらに向上させながら、データセットのサイズとトレーニング計算を大幅に減らすことができることを実証しています。トレーニングが必要なモデルが小さいほど、LLMsの環境コストを大幅に削減することができます。彼らは、コーディングのためにトレーニングされたLLMsを使用して、自分のdocstringsから特定のPython関数を構築しました。後者の論文で提唱された評価基準であるHumanEvalは、コード上でLLMのパフォーマンスを比較するために頻繁に使用されています。

彼らは、1.3Bパラメータモデルをトレーニングし、phi-1と呼びます。7Bトークン以上(合計50Bトークン以上)を約8回通過した後、200Mトークン未満でファインチューニングを行い、高品質のデータが確立されたスケーリングルールを破る能力を示しました。一般的には、「教科書の品質」のデータを事前にトレーニングし、GPT-3.5を使用して人工的に生成されたデータとオンラインソースからのフィルタリングされたデータの両方を使用し、ファインチューニングには「教科書の演習のような」データを使用します。彼らは、1つのLLM生成のみを使用して、競合モデルよりもはるかに小さなデータセットとモデルサイズでありながら、HumanEvalで50.6%のpass@1精度、MBPP (Mostly Basic Python Programs)で55.5%のpass@1精度を達成しました。

彼らは、7Bトークン以上(合計50Bトークン以上)を約8回通過した後、200Mトークン未満でファインチューニングを行い、1.3Bパラメータのphi-1モデルをトレーニングすることで、高品質のデータが確立されたスケーリングルールを破る能力を示しました。一般的には、「教科書の品質」のデータを事前にトレーニングし、GPT-3.5を使用して人工的に生成されたデータとオンラインソースからのフィルタリングされたデータの両方を使用し、ファインチューニングには「教科書の演習のような」データを使用します。彼らは、1つのLLM生成のみを使用して、競合モデルよりもはるかに小さなデータセットとモデルサイズでありながら、HumanEvalで50.6%のpass@1精度、MBPP (Mostly Basic Python Programmes)で55.5%のpass@1精度を達成しました。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

AI研究

ニューヨーク大学とMetaの研究者が、「Dobb-E」という家庭用ロボット操作のためのオープンソースかつ汎用フレームワークを紹介した

NYUとMetaの研究者チームは、DobbEという高度に適応性のあるシステムを開発し、家庭環境におけるロボットの操作学習の課題に...

機械学習

「AudioLDM 2をご紹介します:音声、音楽、効果音を融合した独自の音声生成AIフレームワーク」

人工知能と深層学習の概念にますます依存する現代において、音声生成の領域はAudioLDM 2の導入により画期的な変革を経験して...

機械学習

「Javaアプリケーションのレイテンシー削減」

この記事では、大規模なプロダクションアプリケーションのメモリ解析に関連する課題と、それを乗り越える方法について取り上...

AI研究

「Googleの研究者が球面上でのディープラーニングのためのJAX向けのオープンソースライブラリを紹介します」

ディープラーニングは、入力から複雑な表現を自動的に学習する機械学習の一部です。その応用は、言語処理のための画像と音声...

機械学習

「Amazon SageMakerを使用して、クラシカルなMLおよびLLMsを簡単にパッケージ化してデプロイする方法、パート2:SageMaker Studioでのインタラクティブなユーザーエクスペリエンス」

Amazon SageMakerは、開発者やデータサイエンティストが機械学習(ML)モデルを効率的かつ簡単に構築、トレーニング、展開す...

AI研究

このUCLAのAI研究によると、大規模な言語モデル(例:GPT-3)は、様々なアナロジー問題に対してゼロショットの解決策を獲得するという新たな能力を獲得していることが示されています

類推的な推論は、人間の知性と創造力の基盤となるものです。未知の課題に直面した際、個人は順序立ててそれらをより理解しや...