スカイワーク-13B:3.2Tトークン以上のコーパスから学習された大規模言語モデル(LLM)のファミリーを紹介しますこのコーパスは、英語と中国語のテキストから引用されています

「スカイワーク-13B:3.2Tトークン以上のコーパスから学習された大規模言語モデル(LLM)のファミリーを紹介」- このコーパスは、英語と中国語のテキストから引用されています

バイリンガルLLMは、言語の多様性が共通の課題となっている相互につながった世界で、ますます重要になっています。彼らは言語の壁を取り払い、異文化理解を促進し、異なる言語を話す人々にとって情報やサービスへのアクセスを向上させる潜在能力を持っています。バイリンガルLLMは、高品質の機械翻訳サービスを提供するために使用することができます。彼らはテキストを一つの言語から別の言語に翻訳し、異なる文化や地域間でのコミュニケーションを円滑にし、言語の壁を取り払うのに役立ちます。

これらのモデルの需要の増加に伴い、商業化のトレンドと透明性の必要性が増しています。多くの組織はモデルのチェックポイントを公に利用可能にし、モデルの重要な情報を公開しないという傾向があります。AIの透明性を回復するために、昆仑科技の研究者たちは英語と中国語のテキストから抽出された32兆トークン以上を使用してトレーニングされた大規模な言語モデルのファミリーを構築しました。それは「Skywork-13B」と呼ばれています。

Skywork-13Bファミリーには、Skywork-13B-BaseとSkywork-13BChatが含まれています。ベースは最新の中国語言語モデリング能力を持つ強力な基礎モデルであり、チャットは会話に最適化された調整済みバージョンです。他の組織とは異なり、彼らはトレーニングプロセスとデータ構成に関する詳細な情報を公開しています。

彼らはまた、トレーニング中にモデルの能力がどのように発展するかを理解するための貴重なリソースである中間チェックポイントも公開しました。彼らはこの開示によって、他の研究者が彼らのユースケースにチェックポイントを活用できると信じています。彼らはまた、トレーニング段階でのドメイン内データの使用レベルを検出する新しい方法も開発しました。

チームはSkywork-13B基盤モデルをSkyPileでトレーニングしました。それらはSkyPile全体ではなく、2つのステージのトレーニングアプローチを追いました。最初のステージでは、SkyPile-Mainでモデルをゼロからトレーニングする主要な事前トレーニングフェーズを構成します。 2番目のステージでは、SkyPile-STEMでSTEM関連のドメイン知識と問題解決能力を最適化するために継続的な事前トレーニングを行います。

モデルのトレーニング中に、チームは多数のバリデーションセットでの言語モデリング損失を調べました。それぞれが中国語と英語のコード、学術論文、ソーシャルメディアの投稿、およびウェブテキストによる異なるデータ分布を反映する独自のバリデーションセットを作成しました。彼らは、このアプローチに従うことが、構成の容易さ、計算の簡素さ、トレーニングの進行に対する高い感度、およびモデルに対する無関心さをもたらすと述べています。

Skywork-13Bモデルは、全体的に最も優れたパフォーマンスを示しています。平均的なPerplexityスコアが最も低い9.42を獲得しました。また、テック、映画、政府、および金融のドメインで最も優れたパフォーマンスを発揮しています。それは同じサイズのモデルのパフォーマンスを超えるだけでなく、InternLM-20BやAquila2-34Bなどのはるかに大きなモデルを大きく上回る優れた成績を収めています。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

機械学習

AI倫理の役割:革新と社会的責任のバランス

「人工知能は急速に拡大している分野を表しており、AIが引き起こす倫理的なジレンマを認識することが重要です」

機械学習

なぜGPUはAIに適しているのか

GPUは人工知能の希少な地球の金属、さらには金そのものとも呼ばれています。それは、今日の生成的AI時代において基盤となる存...

データサイエンス

デコード Transformersを平易な英語で説明します

コード、数学、またはキー、クエリ、値の言及なし

人工知能

ソフトウェア開発の進化:ウォーターフォールからアジャイル、デボップスそして更に先へ

「ソフトウェア開発の変革に飛び込み、アジャイルとデボップスを理解し、AIやローコードプラットフォームなどの将来のトレン...

人工知能

「React JSでChatGPT 2.0を構築する」

このブログでは、ChatGPT 2.0をReact JSと組み合わせて構築する方法について探求しますこの強力な組み合わせにより、チャット...

AIニュース

APIワールド2023:API、AI、および秘密のセキュリティを結集する

「API World 2023は、ベストプラクティスの洞察を共有し、すべての資産を考慮すること、そしてAPI駆動型の世界におけるAIとAP...