マイクロソフトリサーチは、競合モデルよりも大幅に小さいサイズで、Pythonコーディングに特化した新しい大規模言語モデルphi-1を紹介しました

Microsoft Research introduced a new large-scale language model, phi-1, which is significantly smaller in size than competing models and specialized for Python coding.

トランスフォーマーのデザインが発見されて以来、大規模な人工ニューラルネットワークのトレーニングの技術は飛躍的に進歩してきましたが、この成果の基礎となる科学はまだ幼い段階にあります。同じ時期にトランスフォーマーがリリースされたことで、圧倒的で混乱するような結果の中に秩序が出現し、計算量またはネットワークサイズを増やすと性能が予測可能に向上するというスケーリング則が判明しました。これらのスケーリング則は、深層学習におけるスケールの調査のためのガイドとして機能し、これらの則の変化の発見により性能が急激に向上しました。

本論文では、別の軸に沿ってデータ品質をどのように改善できるかを調査しています。高品質のデータはより良い結果を生み出します。たとえば、データのクリーニングは、現在のデータセットを作成するための重要なステップであり、比較的小さなデータセットまたはデータをより多くのイテレーションに通すことができます。ニューラルネットワークに英語を教えるために人工的に作成された高品質のデータセットであるTinyStoriesに関する最近の研究は、高品質のデータの利点がこれ以上のものであることを示しています。改良されたスケーリング則により、高品質のデータは大規模なモデルの性能を、よりシンプルなトレーニング/モデルで一致させることができるようになります。

この研究では、マイクロソフトリサーチの著者たちは、良質なデータが大規模言語モデル(LLMs)のSOTAをさらに向上させながら、データセットのサイズとトレーニング計算を大幅に減らすことができることを実証しています。トレーニングが必要なモデルが小さいほど、LLMsの環境コストを大幅に削減することができます。彼らは、コーディングのためにトレーニングされたLLMsを使用して、自分のdocstringsから特定のPython関数を構築しました。後者の論文で提唱された評価基準であるHumanEvalは、コード上でLLMのパフォーマンスを比較するために頻繁に使用されています。

彼らは、1.3Bパラメータモデルをトレーニングし、phi-1と呼びます。7Bトークン以上(合計50Bトークン以上)を約8回通過した後、200Mトークン未満でファインチューニングを行い、高品質のデータが確立されたスケーリングルールを破る能力を示しました。一般的には、「教科書の品質」のデータを事前にトレーニングし、GPT-3.5を使用して人工的に生成されたデータとオンラインソースからのフィルタリングされたデータの両方を使用し、ファインチューニングには「教科書の演習のような」データを使用します。彼らは、1つのLLM生成のみを使用して、競合モデルよりもはるかに小さなデータセットとモデルサイズでありながら、HumanEvalで50.6%のpass@1精度、MBPP (Mostly Basic Python Programs)で55.5%のpass@1精度を達成しました。

彼らは、7Bトークン以上(合計50Bトークン以上)を約8回通過した後、200Mトークン未満でファインチューニングを行い、1.3Bパラメータのphi-1モデルをトレーニングすることで、高品質のデータが確立されたスケーリングルールを破る能力を示しました。一般的には、「教科書の品質」のデータを事前にトレーニングし、GPT-3.5を使用して人工的に生成されたデータとオンラインソースからのフィルタリングされたデータの両方を使用し、ファインチューニングには「教科書の演習のような」データを使用します。彼らは、1つのLLM生成のみを使用して、競合モデルよりもはるかに小さなデータセットとモデルサイズでありながら、HumanEvalで50.6%のpass@1精度、MBPP (Mostly Basic Python Programmes)で55.5%のpass@1精度を達成しました。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

データサイエンス

軌跡予測のためのマップマッチング

この記事では、ノイズのあるGPSセンサーからサンプリングされた過去のトリップのデータベースを使用して、デジタル道路ネット...

AIニュース

ランウェイの新しい「モーションブラシ」機能は、Gen-2においてあなたのジェネレーションに制御された動きを追加することを可能にします

ビデオ生成では、ユーザーは平文からビデオを作成するという困難に常に直面してきました。従来の方法では、緻密なソフトウェ...

AIニュース

「Googleのジェミニは私たちが期待していた生成AIモデルではありません」

DeepMindの製品VPであるEli Collins氏は、Gemini Ultraがテキスト、画像、音声、コードの「微妙な」情報を理解できると主張し...

AI研究

「バイトダンスAI研究は、連続および離散パラメータのミックスを使用して、高品質のスタイル化された3Dアバターを作成するための革新的な自己教師あり学習フレームワークを提案しています」

デジタルワールドへの重要な入り口は、社交、ショッピング、ゲームなどの活動において現代の生活でより一般的になっており、...

データサイエンス

レコメンデーションシステムにおけるディープラーニング:入門

レコメンダーシステムは、現在最も急速に進化している産業用機械学習アプリケーションの一つですビジネス的な観点から見れば...