イリノイ大学の研究者は、コードのための完全なオープンソース大規模言語モデル(LLM)のシリーズであるマジコーダを紹介しました

イリノイ大学研究者が、マジコーダという完全なオープンソースの大規模言語モデル(LLM)シリーズの開発を紹介

イリノイ大学アーバナ・シャンペーン校と清華大学の研究者チームは、オープンソースのコードスニペットからの低バイアスと高品質なコーディングチャレンジの生成の課題に取り組むために、Magicoderを導入しました。Magicoderは、Pythonテキストからコードを生成する、多言語のコーディング、データサイエンスプログラムの言語モデルを含むさまざまなコーディングベンチマークで、既存のLLMよりも優れたパフォーマンスを発揮します。

CodeGen、CodeT5、StarCoder、CODELLAMAなどのような主要なベースモデルは、LLMのコード生成と理解の基本的な能力を確立しています。事前学習されたLLMを改善するためには、自己指導とEvol-Instructのような手法を使った指示の調整が提案されており、HumanEval、MBPP、APPS、およびCodeContestsなどの既存のコードベンチマークは、自然言語の説明から単一機能プログラムを開発する際のLLMの評価に利用されます。

Magicoderは、コードのための完全なオープンソースのLLMシリーズであり、OSS-INSTRUCTを使用して75,000件の合成指示データでトレーニングされています。これは、GitHubのシードコードスニペットから多様性と現実世界の関連性を確保しながら、LLMにコーディングの問題と解決策を引き起こすように促します。評価には、HumanEvalとMBPPのようなベンチマークが使用され、pass1メトリックに焦点が当てられます。INSTRUCTORは、埋め込みの類似性に基づいてOSS-INSTRUCT生成データを分類するために使用されます。データのクリーニング技術、含められているのは浄化とプロンプトのフィルタリングなどがあり、堅牢性が向上しています。

Magicoderは、最大でも70億を超える控えめなパラメータサイズで、優れたパフォーマンスを示しています。OSS-INSTRUCTを使用して75,000件の合成指示データをトレーニングしたMagicoderは、Pythonテキストからコードを生成する、多言語のコーディング、データサイエンスプログラムの言語モデリングなど、先進的なコードモデルよりも優れたパフォーマンスを発揮します。拡張版のMagicoderSは、コード生成性能をさらに向上させ、さまざまなベンチマークで同じまたはより大きなサイズの他のモデルを上回ります。MagicoderS-CL-7Bは、コードモデルの中で最先端の結果を同時に達成し、堅牢で優れたコード生成能力を示します。

まとめると、この研究では、オープンソースのコードスニペットからコーディングチャレンジを生成するためにLLMを利用する効果的な手法であるOSS-INSTRUCTの有用性が強調されています。OSS-INSTRUCTを使用して訓練されたMagicoderは、大きなパラメータを持つ他のLLMよりもさまざまなコーディングベンチマークで優れたパフォーマンスを発揮します。また、Evol-Instructと組み合わせると、ChatGPTのような先進的なモデルと同様に、HumanEvalベンチマークで印象的なパフォーマンスを発揮するMagicoderSモデルを向上させます。この研究では、将来のLLMに関する研究や、OSS-INSTRUCTを拡大してより高品質なデータを生成するために、モデルの重み、トレーニングデータ、およびソースコードをオープンソース化することを推奨しています。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

機械学習

「生成AIの10年からの教訓」

「生成AIの未来を理解するためには、それがどこから来たのか、そして技術とともに進化する課題と機会を見ることが役立ちます」

機械学習

「このAI論文は、超人的な数学システムの追求において、認知科学と機械学習の融合を探る」という記事です

MIT BCS、ケンブリッジ大学、アラン・チューリング研究所の研究者たちは、人工知能における自動化数学者の歴史的追求を探求し...

機械学習

「アニメート・ア・ストーリー:高品質で構造化されたキャラクター主導のビデオを合成する、検索補完型ビデオ生成によるストーリーテリング手法による出会い」

テキストから画像へのモデルは最近注目を集めています。生成型人工知能の導入により、GPTやDALL-Eなどのモデルはリリース以来...

データサイエンス

Pandas 2.0 データサイエンティストにとってのゲームチェンジャー?

Pandas 2.0の効率的なデータ操作を可能にするトップ5の機能を活用する方法を学び、データサイエンススキルを次のレベルに引き...