「UCバークレーの研究者たちは、Chain of Hindsight(CoH)という新しい技術を提案しましたこれにより、LLMsがあらゆる形式のフィードバックから学び、モデルのパフォーマンスを向上させることが可能となります」

UC Berkeley researchers propose a new technology called Chain of Hindsight (CoH) that allows LLMs to learn from feedback in all forms and improve model performance.

過去数年間、大規模なニューラルネットワークが研究者の注目を集めています。これは、自然言語理解や難解な数学の方程式の解決、さらにはタンパク質構造の予測など、さまざまなタスクで優れたパフォーマンスを発揮するためです。しかし、これらのモデルが社会に建設的な貢献をするためには、人間の価値観に合致し、人間の好みを考慮することが重要です。ヒューマンフィードバックの利用は、これを達成するための最も重要な要素の一つであり、正確性、公平性、バイアスなどの幅広い指標に基づいてこれらのモデルのパフォーマンスを評価し、より倫理的な出力を生成するための改善方法を提供します。ユーザーフィードバックの組み込み効率を向上させるために、研究者たちは過去数年間にさまざまなヒューマンインザループシステムのアプローチを試行してきました。その結果、ChatGPTとInstructGPTは、ヒューマンフィードバックを利用して驚くべき結果を示しました。

これらの言語モデリングのパフォーマンスの向上は、主に教師ありファインチューニング(SFT)と人間のフィードバックによる強化学習(RLHF)アプローチによる戦略によるものとされています。これらの戦略は、言語モデルのパフォーマンスに関する有望な結果を達成する上で大きく貢献していますが、それぞれに固有の欠点があります。SFTは主に人間の注釈に頼っており、これらのモデルは使用が困難でデータの利用効率も低いです。一方、強化学習は報酬関数に基づいて動作するため、これらのモデルを最適化することは非常に困難です。

これらの問題に対処するため、カリフォルニア大学バークレー校の研究者たちは、フィードバックを文に変換し、モデルがフィードバックを理解するためにファインチューニングするという新しい技術を開発しました。この技術は、言語で提供される大量のフィードバックを人間がどのように処理するかに大いに触発されたものです。この技術の設計時の研究者の目標は、強化学習を使用せずにすべてのフィードバックを十分に活用する一方で、SFTとRLHFの強みを組み合わせることで、モデルがより正確かつ効果的にさまざまなタスクを実行できるようにすることでした。

研究者たちは、人間は言語形式の豊かなフィードバックから効果的に学ぶことができるという事実を利用しました。事前学習された言語モデルが文脈で効果的に学習する能力が優れていることを考えると、すべてのフィードバックを文に変換し、モデルにフィードバックに従うように学習させる可能性について研究者たちは疑問を抱きました。具体的には、研究者たちはモデルをファインチューニングして結果を予測させる一方で、1つ以上のソートされた結果とそのフィードバックを比較の形式で使用することを提案しました。CoHは、訓練中にランダムに1つ以上のモデルの出力を選択し、比較の形で肯定的なフィードバックと否定的なフィードバックの両方を含む文を構築するためにそれらを利用します。例えば、2つの例文は「以下は悪い要約です」と「以下の要約はより良いです」となります。モデルは推論時に肯定的なフィードバックを使用して望ましい出力を生成します。

CoHのアプローチにより、モデルは肯定的なフィードバックと否定的なフィードバックの両方から学習することができ、否定的な属性やエラーを特定して修正することができます。この戦略には、より有機的なスタイルのフィードバックやトレーニングシステムなど、さまざまな利点があります。また、CoH技術は、研究者による数多くの実験的評価において、言語モデルと人間の好みの相関において以前のアプローチを大幅に上回る成果を behしました。この方法はヒューマン評価で好まれ、要約やディスカッションのタスクでも非常に優れた結果を behしました。カリフォルニア大学バークレー校のチームは、CoHが将来的に自動や数値のフィードバックなど、さまざまなタイプのフィードバックを使用する際に大きな潜在能力を持つと強く信じています。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

機械学習

『トランスフォーマーの位置符号化の解説』

元のトランスフォーマーアーキテクチャでは、位置エンコーディングが入力と出力の埋め込みに追加されました位置エンコーディ...

人工知能

AWS Inferentia2は、AWS Inferentia1をベースにしており、スループットが4倍に向上し、レイテンシが10倍低減されています

機械学習モデル(MLモデル)のサイズ、特に生成AIにとって、大規模言語モデル(LLM)やファウンデーションモデル(FM)のサイ...

AIニュース

Amazon SageMaker Model Cardの共有を利用して、モデルのガバナンスを向上させる

MLガバナンスの一環として利用可能なツールの1つは、Amazon SageMaker Model Cardsですこのツールは、モデルのライフサイクル...

データサイエンス

「カオスから秩序へ:データクラスタリングを活用した意思決定の向上」

「オンラインストアは、購買パターン、購入日、年齢、収入などの要素に基づいて顧客をクラスタリングするために、この方法を...

機械学習

「vLLMに会ってください:高速LLM推論とサービスのためのオープンソース機械学習ライブラリ」

大規模な言語モデル(LLM)は、プログラミングアシスタントやユニバーサルチャットボットなどの新しいアプリケーションを可能...

データサイエンス

大型言語モデルにおけるデータ汚染の隠れた影響

「大規模言語モデルにおけるデータ汚染のリスクを明らかにするLLMにおけるデータバイアスの検出と緩和のための戦略」