「UCバークレーの研究者たちは、Chain of Hindsight(CoH)という新しい技術を提案しましたこれにより、LLMsがあらゆる形式のフィードバックから学び、モデルのパフォーマンスを向上させることが可能となります」

UC Berkeley researchers propose a new technology called Chain of Hindsight (CoH) that allows LLMs to learn from feedback in all forms and improve model performance.

過去数年間、大規模なニューラルネットワークが研究者の注目を集めています。これは、自然言語理解や難解な数学の方程式の解決、さらにはタンパク質構造の予測など、さまざまなタスクで優れたパフォーマンスを発揮するためです。しかし、これらのモデルが社会に建設的な貢献をするためには、人間の価値観に合致し、人間の好みを考慮することが重要です。ヒューマンフィードバックの利用は、これを達成するための最も重要な要素の一つであり、正確性、公平性、バイアスなどの幅広い指標に基づいてこれらのモデルのパフォーマンスを評価し、より倫理的な出力を生成するための改善方法を提供します。ユーザーフィードバックの組み込み効率を向上させるために、研究者たちは過去数年間にさまざまなヒューマンインザループシステムのアプローチを試行してきました。その結果、ChatGPTとInstructGPTは、ヒューマンフィードバックを利用して驚くべき結果を示しました。

これらの言語モデリングのパフォーマンスの向上は、主に教師ありファインチューニング(SFT)と人間のフィードバックによる強化学習(RLHF)アプローチによる戦略によるものとされています。これらの戦略は、言語モデルのパフォーマンスに関する有望な結果を達成する上で大きく貢献していますが、それぞれに固有の欠点があります。SFTは主に人間の注釈に頼っており、これらのモデルは使用が困難でデータの利用効率も低いです。一方、強化学習は報酬関数に基づいて動作するため、これらのモデルを最適化することは非常に困難です。

これらの問題に対処するため、カリフォルニア大学バークレー校の研究者たちは、フィードバックを文に変換し、モデルがフィードバックを理解するためにファインチューニングするという新しい技術を開発しました。この技術は、言語で提供される大量のフィードバックを人間がどのように処理するかに大いに触発されたものです。この技術の設計時の研究者の目標は、強化学習を使用せずにすべてのフィードバックを十分に活用する一方で、SFTとRLHFの強みを組み合わせることで、モデルがより正確かつ効果的にさまざまなタスクを実行できるようにすることでした。

研究者たちは、人間は言語形式の豊かなフィードバックから効果的に学ぶことができるという事実を利用しました。事前学習された言語モデルが文脈で効果的に学習する能力が優れていることを考えると、すべてのフィードバックを文に変換し、モデルにフィードバックに従うように学習させる可能性について研究者たちは疑問を抱きました。具体的には、研究者たちはモデルをファインチューニングして結果を予測させる一方で、1つ以上のソートされた結果とそのフィードバックを比較の形式で使用することを提案しました。CoHは、訓練中にランダムに1つ以上のモデルの出力を選択し、比較の形で肯定的なフィードバックと否定的なフィードバックの両方を含む文を構築するためにそれらを利用します。例えば、2つの例文は「以下は悪い要約です」と「以下の要約はより良いです」となります。モデルは推論時に肯定的なフィードバックを使用して望ましい出力を生成します。

CoHのアプローチにより、モデルは肯定的なフィードバックと否定的なフィードバックの両方から学習することができ、否定的な属性やエラーを特定して修正することができます。この戦略には、より有機的なスタイルのフィードバックやトレーニングシステムなど、さまざまな利点があります。また、CoH技術は、研究者による数多くの実験的評価において、言語モデルと人間の好みの相関において以前のアプローチを大幅に上回る成果を behしました。この方法はヒューマン評価で好まれ、要約やディスカッションのタスクでも非常に優れた結果を behしました。カリフォルニア大学バークレー校のチームは、CoHが将来的に自動や数値のフィードバックなど、さまざまなタイプのフィードバックを使用する際に大きな潜在能力を持つと強く信じています。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

人工知能

ファッションにおけるGenAI | Segmind Stable Diffusion XL 1.0アプローチ

イントロダクション ファッション業界も例外ではなく、消費者の変化する好みに合わせて革新の最前線に留まる方法を模索してき...

AIニュース

「パットスナップがAmazon SageMaker上で低遅延と低コストでGPT-2推論を使用した方法」

このブログ投稿は、パッツナップのシニア自然言語処理エンジニアである白子龍によって共同執筆され、序文も含まれていますGoo...

人工知能

新たな研究が、AIの隠れた脆弱性を明らかにする

人工知能(AI)の急速に進化する風景では、変革的な変化の約束は、革新的な自動車が交通を再構築するという前途洋々の可能性...

機械学習

「AIの力による消費者の支払い行動予測」

「AIが予測能力を活用して消費者の支払行動を理解し、予測する方法を発見し、事業に行動可能な洞察を提供する」

AIニュース

「メタは、AIチャットボットを個性付けて使用できると報告されています」

「エイブラハム・リンカーンとチャットしたいですか?FacebookのオーナーであるMetaは人工知能のリーダーですが、すでに高度...

コンピュータサイエンス

72歳で亡くなったダグラス・レナット氏、人間に似たAIを作ろうとした人

彼は数十年間、人工知能に取り組み、日常の感覚を再現できるコンピュータを作り出すことに努めました