「UCバークレーの研究者たちは、スターリング-7Bを発表しました:AIフィードバックからの強化学習でトレーニングされたオープンな大規模言語モデル(LLM)です(RLAIF)」

『UCバークレーの研究者がスターリング-7Bを発表!AIフィードバックから学んだオープンな大規模言語モデル(LLM)』(RLAIF)

大規模言語モデル(LLM)は、自然言語処理タスクのための人工知能モデルです。これらのモデルは膨大なデータセットでトレーニングされ、人間のようなテキストを理解し、生成することができます。彼らは人間のようなテキストを理解し、生成する能力によって自然言語処理を変革しました。その役割は、生活のあらゆる分野に及んでいます。

UCバークレーの研究者たちは、Reinforcement Learning from AI Feedback(RLAIF)によってトレーニングされたオープンな大規模言語モデル(LLM)であるStarling-7Bを開発しました。このモデルは、最近開発された報酬訓練およびポリシーチューニングパイプライン、新しいGPT-4ラベル付きランキングデータセットNectar、最先端の報酬訓練およびポリシーチューニングパイプラインの機能を活用しています。

https://starling.cs.berkeley.edu/

Starling-7Bの基盤は、GPT-4のラベル付きランキングデータセットNectarにあります。このデータセットには183,000のチャットプロンプトが含まれており、各プロンプトにはGPT-4、GPT-3.5-instruct、GPT-3.5-turbo、Mistral-7B-Instruct、およびLlama2-7Bなどのさまざまなモデルからの7つの応答があります。これにより、380万組の比較が可能となります。研究者たちは、GPT-4の順位付けを求める際に位置バイアスを軽減するためにかなりの努力を注いでおり、データセットのセクションで詳細に説明しています。

https://huggingface.co/berkeley-nest/Starling-LM-7B-alpha

彼らは学習報酬モデルを使用してOpenchat 3.5言語モデルを洗練させ、結果は印象的であると結論づけました。アルパカ評価スコアは88.51%から91.99%に向上し、MT-Benchスコアは7.81から8.09に向上しました。これらのメトリックは、チャットボットの有用性を評価する基準として機能します。

研究者たちは、Direct Preference Optimization(DPO)を使用してZephyra-7B、Neural-Chat-7B、およびTulu-2-DPO-70Bなどの既存のオープンソースモデルとモデルを比較しました。これらのモデルはChatbot Arenaで良いパフォーマンスを発揮しましたが、MT BenchではOpenHermes 2.5やOpenchat 3.5などのトップSFTモデルと比較してRLHFの完全なポテンシャルには及びませんでした。

研究者たちは、このモデルには特定の課題があると強調しました。それは欺瞞的または操作的な手法に対して脆弱です。また、モデルは数学的または推論タスクに苦労し、出力の事実的な正確性は時々しか保証されません。彼らはまた、モデルが時折冗長になり、ジェイルブレイキングプロンプトに対しても脆弱であることを指摘しました。これらの欠点に対しては、Starling-7Bの改善に引き続き取り組んでいます。

この問題に対処するために、彼らはGPT-4をガイドとして使用するルールベースの報酬モデルを利用して、モデルをさらに洗練することを提案しました。GPT-4の技術レポートで概説されている技術を使用します。

まとめると、Starling-7Bは、LLMにおける重要な進歩を示し、AIフィードバックからの強化学習の可能性を示しています。自然言語処理の分野は、これらのモデルとコミュニティの共有知識の協力によって向上しています。研究者たちは、モデルのパフォーマンスを向上させ、制限を解決するために取り組んでいます。

この投稿は、UCバークレーの研究者によるStarling-7Bの紹介:AIフィードバックからの強化学習によってトレーニングされたオープンな大規模言語モデル(LLM)が最初に掲載されたMarkTechPostです。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

データサイエンス

GoogleシートのAI搭載ソリューション「スマートフィル」によるデータ処理の革新

データ管理とスプレッドシートの愛好家にとって、手作業でデータ処理を行うことは常に煩雑で時間のかかる作業でした。フィー...

機械学習

「MFAを超えて:オクタがエンタープライズアイデンティティを再定義する方法」

新しい解決策は、AIと自動化を活用して企業のセキュリティ姿勢を強化し、従業員の生産性を高めます

機械学習

「Embroid」を紹介します:複数の小さなモデルから埋め込み情報を組み合わせるAIメソッドで、監視なしでLLMの予測を自動的に修正することができます

もしも、薬や医療歴に基づいた基本的なデータ分析を行うための言語モデル(LM)をプログラムしたとしたら、機械学習モデルの...

人工知能

「クリスマスラッシュ」3Dシーンが今週の「NVIDIA Studio」でホリデーのチアをもたらします」

編集者の注記:この投稿は、我々の週刊「In the NVIDIA Studio」シリーズの一部であり、特集アーティストを称え、創造的なヒ...

AIテクノロジー

「ToolJetに会いましょう:最小限のエンジニアリング作業で内部ツールを構築・展開するためのオープンソースのローコードフレームワーク」

ソフトウェア開発の世界では、組織が過剰なエンジニアリング努力を要求せずに迅速に内部ツールを構築および展開する必要があ...