「PolyLM(Polyglot Large Language Model)に会ってください:640BトークンでトレーニングされたオープンソースのマルチリンガルLLMで、2つのモデルサイズ1.7Bと13Bが利用可能です」

PolyLM(Polyglot Large Language Model)は、640BトークンでトレーニングされたオープンソースのマルチリンガルLLMで、2つのモデルサイズ1.7Bと13Bが利用可能です

最近、大規模言語モデル(LLM)の導入により、その多様性と能力が人工知能の分野で注目されています。これらのモデルは、膨大な量のデータで訓練され、自然言語の指示に基づいてテキストを理解し、推論し、生成するという、人間に近い能力を持っています。これらのモデルは、ゼロショットおよびフューショットのタスクで優れたパフォーマンスを発揮し、さまざまなタスクセットで微調整することで、自然言語で与えられた指示に基づいて予期しない課題に対応することができます。

現在のLLMとその開発は、英語やリソース豊富な言語に焦点を当てています。既存のLLMのほとんどは、英語のために特別に設計され、訓練されており、これらのモデルの研究と開発において英語に対する優位性が顕著です。この制限に対処するために、DAMO AcademyとAlibaba Groupの研究者チームは、POLYLM(Polyglot Large Language Model)と呼ばれるマルチリンガルLLMを提案しました。既存のマルチリンガルLLMには13Bモデルが欠けているという特徴があり、チームはPOLYLM-13BとPOLYLM-1.7Bをリリースして使用を容易にしました。

POLYLMは、Wikipedia、mC4、CC-100などの一般にアクセス可能なソースからの640Bトークンの巨大なデータセットを使用して構築されました。チームはまた、低資源言語の不十分なデータの問題に対処するために、カリキュラム学習技術を提案しています。この方法は、トレーニング中に高品質な低資源言語の割合を徐々に増やすことを含みますが、最初は英語に重点を置いています。英語から他の言語への一般的な知識の転送に焦点が当てられています。

チームはまた、教師付き微調整(SFT)フェーズのためのマルチリンガルな指示データセットであるMULTIALPACAを開発しました。既存のマルチリンガルSFTデータセットは、手動注釈によって取得されるか、機械翻訳によって取得されるが、手間と費用がかかるか、翻訳エラーが発生し、文化的なニュアンスが欠ける可能性があります。このマルチリンガル自己指示アプローチは、これらの制約を克服するために高品質なマルチリンガルな指示データを自動的に提供し、英語のシード、多言語への翻訳、指示の生成、およびフィルタリングシステムを活用します。

評価とLLMの多言語能力の評価のために、チームは既存のマルチリンガルタスクから派生したベンチマークを開発しました。これには、質問応答、言語理解、テキスト生成、クロスリンガル機械翻訳などのタスクを含みます。チームは広範な実験により、彼らの事前学習済みモデルが、非英語圏の言語において、同等のサイズのオープンソースモデルよりも優れたパフォーマンスを発揮することを示しました。提案されたカリキュラムトレーニング戦略は、英語の習熟度を維持しながら、多言語のパフォーマンスを向上させます。マルチリンガルな指示データの使用は、さらにPOLYLMの多言語ゼロショットタスクの処理能力を大幅に向上させます。

チームは以下の貢献をまとめています。

  1. スペイン語、ロシア語、アラビア語、日本語、韓国語、タイ語、インドネシア語、中国語など、主要な非英語圏の言語で優れたパフォーマンスを発揮する13Bスケールのモデルが実現されました。このモデルは、これらの言語の習熟度が不足しているか、同等の能力を持つより小さなバージョンがない既存のオープンソースモデルを補完します。
  1. 英語で主に獲得された一般的な知識を多様な非英語圏の言語や機械翻訳などの特定の自然言語処理タスクに効果的に転送するための高度なカリキュラム学習アプローチが提案されました。
  1. 既存の指示データセットを補完するMULTIALPACAというデータセットが提案されました。これにより、LLMは非英語圏の英語を母国語としない話者からのマルチリンガルな指示をより良く理解することができます。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

データサイエンス

感情AIの科学:アルゴリズムとデータ分析の背後にあるもの

「エモーションAIは、高度なアルゴリズムを使用して、顔と声のデータから感情を解読し、データの偏りやプライバシーに関する...

人工知能

コード生成のための5つのChatGPTの代替手段:超高速開発へのハイパードライブ

「ChatGPT の代わりにコード生成を強化し、開発を加速させるための 5 つの強力な代替手段を見つけよう最高のツールをいくつか...

機械学習

「大規模な言語モデルを使用した顧客調査フィードバック分析の強化」

はじめに 顧客フィードバック分析の世界へようこそ。顧客の意見の未探索の富は、ビジネスの成功を形作ることができます。今日...

人工知能

「オッペンハイマーからジェネラティブAIへ:今日の企業にとっての貴重な教訓」

先週末、最新の大ヒット作品「オッペンハイマー」を劇場で3時間観ましたストーリー全体と結末はすでに知っていたにも関わらず...

AI研究

インディアナ大学の研究者たちは、「Brainoware」という最先端の人工知能技術を発表しましたこの技術は、脳器官のようなオルガノイドとシリコンチップからインスピレーションを受けています

生物学の原理と技術革新の融合により、人工知能(AI)の著しい進歩が得られてきました。インディアナ大学ブルーミントン校の...

人工知能

「生成AIの規制」

生成型の人工知能(AI)が注目を集める中、この技術を規制する必要性が高まっていますなぜなら、この技術は大規模な人口に対...