「インセプション、MBZUAI、そしてCerebrasが『Jais』をオープンソース化：世界最先端のアラビア語大規模言語モデル」の記事が公開されました

Article on 'Inception, MBZUAI, and Cerebras Open-Sourcing 'Jais' World's Most Advanced Arabic Language Large-scale Language Model' has been published.

大規模言語モデル（GPT-3など）とその社会への影響は、大いに関心と議論の的です。大規模言語モデルは、自然言語処理（NLP）の分野を大きく前進させました。それらは、翻訳、感情分析、要約、質問応答など、さまざまな言語関連のタスクの精度を向上させました。大規模言語モデルによって強化されたチャットボットや仮想アシスタントは、複雑な会話を処理する能力が向上しています。これらは、顧客サポート、オンラインチャットサービス、一部のユーザーにとってはさえ仲間として使用されています。

アラビア語の大規模言語モデル（LLM）を構築することは、アラビア語の特徴やその方言の多様性のために独自の課題を持ちます。他の言語の大規模言語モデルと同様に、アラビア語のLLMはトレーニングデータからバイアスを受け継ぐ可能性があります。これらのバイアスに対処し、アラビア語のコンテキストでのAIの責任ある使用を確保することは、継続的な関心事です。

Inception、Cerebras、Mohamed bin Zayed University of Artificial Intelligence（UAE）の研究者たちは、新しいアラビア語ベースの大規模言語モデルJaisとJais-chatを紹介しました。彼らのモデルは、GPT-3の生成的事前学習アーキテクチャに基づいており、たった13Bのパラメータのみを使用しています。

彼らの主な課題は、モデルのトレーニングのための高品質なアラビア語データを入手することでした。英語のデータに比べて、2兆トークンまでのコーパスが利用可能である一方、アラビア語のコーパスはかなり小さいものでした。コーパスとは、言語学、自然言語処理（NLP）、テキスト分析のための研究や言語モデルのトレーニングに使用される、大規模で構造化されたテキストのコレクションです。コーパスは、言語のパターン、意味論、文法などを研究するための貴重なリソースとして活用されます。

彼らは、これを解決するために、限られたアラビア語の事前トレーニングデータを豊富な英語の事前トレーニングデータで補完するためにバイリンガルモデルをトレーニングしました。彼らは、Jaisを3950億トークン、その中に72 billionのアラビア語トークンと2320億の英語トークンを含むように事前トレーニングしました。彼らは、高品質なアラビア語データを生成するために、徹底的なデータフィルタリングとクリーニングを含む専門のアラビア語テキスト処理パイプラインを開発しました。

彼らは、彼らのモデルの事前学習と微調整の機能が、既知のすべてのオープンソースのアラビア語モデルを上回り、より大規模なデータセットでトレーニングされた最新のオープンソースの英語モデルと同等であると述べています。LLMの固有の安全上の懸念を考慮し、彼らはさらに安全志向の指示で微調整しました。安全プロンプト、キーワードベースのフィルタリング、外部分類器の形で追加のガードレールを設けました。

彼らは、Jaisが中東のNLPとAIの景観の重要な進化と拡大を表していると述べています。それはアラビア語の理解と生成を前進させ、主権的でプライベートな展開オプションを持つ地元のプレーヤーを支援し、応用とイノベーションの活発なエコシステムを育成します。この研究は、より言語的に包括的で文化的に意識の高い時代を築くためのデジタルとAIの転換の広範な戦略的イニシアチブをサポートしています。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

AI ShortsApplicationsArtificial IntelligenceEditors PickLanguage modelLarge Language ModelMachine learningStaffTech NewsTechnologyUncategorized

Was this article helpful?

93 out of 132 found this helpful

「インセプション、MBZUAI、そしてCerebrasが『Jais』をオープンソース化：世界最先端のアラビア語大規模言語モデル」の記事が公開されました

Was this article helpful?

YOLOV8によるANPR

『チュートリアルを超えて LangChainのPandasエージェントでデータ分析を学ぶ』

AI研究

スタンフォード大学の研究は、PointOdysseyを紹介します：長期ポイント追跡のための大規模な合成データセット

「研究者がChatGPTを破った方法と、将来のAI開発に与える可能性」

ChatGPTの哲学コース：このAI研究は、対話エージェントのLLMの振る舞いを探究します

「SimCLRの最大の問題を修正する〜BYOL論文の解説」

10倍の生産性を向上させるためのTop 10 VS Code拡張機能

「2023年に試してみる必要のある素晴らしい無料LLMプレイグラウンド5選」