「大規模言語モデルのパディング — Llama 2を用いた例」

Padding in Large Language Models An Example Using Llama 2

因果的LLMのトレーニング例をパッドするためのベストプラクティス

作者による画像—Pixabayの画像を元に作成

パディングは、大規模言語モデル(LLM)において最も文書化されていない側面の一つです。なぜでしょうか?それは、通常、LLMはパディングなしで事前学習されるためです。

ただし、カスタムデータセットでのLLMのファインチューニングには、パディングが必要です。トレーニング例を正しくパディングしないと、トレーニング中のヌルロスまたは無限ロス、過剰生成、または推論中の空の出力など、さまざまな予期しない動作が発生する可能性があります。

この記事では、まずパディングとは何か、なぜ必要なのかを説明します。次に、パディングなしで事前学習されたLLMに適切なパディング戦略を見つける方法を示します。Hugging FaceのTransformersを使用してLLMにパディングサポートを追加するための2つの異なる解決策も提案します。

記事の最後には、Llama 2のトレーニング例をパディングする方法を示す例も提供します。

この記事を読むと、ドキュメントやチュートリアルを読まずに、自分自身でLLMのトレーニング例をパディングする方法を理解できるようになるはずです。

パッドとバッチ

パディングとは何か、なぜパディングするのか?

ファインチューニングに使用する例を1つ取り上げましょう。

example = "あなたはチャットボットではありません。"

この例をトークンのシーケンスに変換する必要があります。Transformersなどのライブラリでは、通常、次の手順に従ってトークン化されます:

  • 与えられた語彙に基づいて、例をサブワードに分割する:
example = ["▁あなた", "▁は", "▁チャット", "ボット", "ではありません", "。"]
  • 単語を語彙のインデックスで置き換えて、整数のシーケンスを得る:
example = [887, 526, 451, 263, 13563, 7451, 29889]
  • シーケンスに特殊トークンを追加する:BOSトークン、EOSトークン、UNKトークン、PADトークンなど
example = [1, 887, 526, 451, 263, 13563, 7451, 29889]

注意:この例では、Llama 2のトークナイザーを使用しています。以下で詳しく説明します。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

機械学習

「NVIDIAは、最大級のAmazon Titan Foundationモデルのトレーニングを支援しています」

大型言語モデルに関するすべての情報は大きいです。巨大なモデルは、数千台のNVIDIA GPU上で大規模なデータセットをトレーニ...

AIテクノロジー

ピカ1.0:ビデオ作成のための新しいAIモデル

世界中で生成AIに魅了されているPikaは、AIを活用した動画作成に特化したスタートアップで、Lightspeed Venture Partnersが主...

データサイエンス

「AI開発でこれらのミスを com しないでください」

「品質の高いAIデプロイメントを開発するには、準備が全体の90%を占めます以下に、最高のAIモデルを開発するために注意すべ...

機械学習

「研究:社会的に意識した時間的因果関係デコーダー推薦システム」

エルタイエブ・アフメド(リサーチエンジニア)とサブラジット・ロイ(シニアリサーチサイエンティスト)によるGoogle Resear...

AIニュース

「KPMG、AIに20億ドル以上の賭けをし、120億ドルの収益を目指す」

技術革新の急速なペースを強調する大胆な動きとして、主要なプロフェッショナルサービス企業であるKPMGは、生成型AIへの大幅...

AI研究

取りましょう NVIDIA NeMo SteerLMは、推論中にモデルの応答をカスタマイズすることができるようにします

開発者は、強力な大規模な言語モデル(LLMs)を自分たちの目的地に到達する際に、AIパワードステアリングホイールを利用して...