アリババの研究者たちは、ChatGPTのような現代のチャットボットの指示に従う能力を活用した、オープンセットの細かいタグ付けツールであるINSTAGを提案しています

Alibaba researchers propose INSTAG, an open-set fine tagging tool that leverages the ability to follow instructions of modern chatbots like ChatGPT.

ChatGPTのような大規模な言語モデルが指示に従う能力をどのように獲得するのか、考えたことはありますか?さまざまな基礎言語モデルは、監視付きファインチューニング(SFT)を通じてそれを獲得しています。SFTの成功のためには、データセットの多様性と複雑さが重要な要素です。その定性的な分析と定義はより明確にする必要があります。

阿里巴巴ダモアカデミーの研究者は、「InsTag」というオープンセットの細かいタガーを提案しています。これは、タスクに関する指示の多様性と複雑性を定義するためのセマンティクスと意図に基づいてSFTデータセット内のサンプルにタグを付けるものです。彼らは、より複雑で多様なデータとともにモデルの能力が向上すると主張しています。

研究者はまた、InsTagに基づいたデータセレクターを提案しています。これはオープンソースのデータセットから6,000件の多様で複雑なサンプルを選択し、InsTagで選択されたデータ上でモデルをファインチューニングするものです。彼らは、さまざまなセマンティクスと専門知識をカバーする広範なトレーニングデータが、人間の期待に適切に応え、自然言語で人間の意図を正確に認識し、適切に応答を形式化するために重要であると主張しています。

InsTagは、高性能なチャットボットChatGPTによって強化された自動的な指示タグ付け手法です。これは、ChatGPTに対してクエリにタグを割り当てるように自動的に促すフレームワークです。ChatGPTは、割り当てられた各タグを説明するためにシステマティックなタグの正規化技術を使用します。既存のオープンソースのデータセットにInsTagが適用されると、複雑さと多様性に基づいて詳細に分析されたオープンセットのタグが構築されます。InsTagセレクターによって選択されたデータでファインチューニングされたLLMは、MIT-Benchmarkでより良いパフォーマンスを発揮します。

ChatGPTを使用して意図タグを生成しようとする際、研究者は3つのタイプのノイズを特定しました。出力形式の指示に対するChatGPTの不安定さにより、レキシカルノイズが生じました。具体的すぎるタグは制御されていない粒度を作り出し、ノイズを引き起こします。一部のタグは、ChatGPTのバイアスにより頻繁に一緒に現れ、不正確な相関関係を生じます。

これらを解決するために、彼らはフォーマット、意味、関連性などのさまざまな側面を使用してオープンセットのタグ付け結果を正規化しました。まず、特定の設定パラメーター(データセットのスケールに関連するハイパーパラメーターと呼ばれる)未満の頻度で現れるロングテールのタグをフィルタリングしました。すべてのタグは、大文字の影響を避けるために小文字に変換されました。最後に、各タグにステミングを適用しました。ステミングは、接辞を除去することにより、単語の基本形を抽出するための技術です。

研究者は、ファインチューニングにLLaMAの13Bバージョンを選択し、他の類似のLLMと比較した結果、彼らのモデルはMIT-Benchでの平均スコア6.44を達成し、すべてのオープンソースの整列したLLMを上回ることを示しています。

まとめると、研究者は、彼らの提案したInsTagがLLMの整列におけるクエリの分布のより深い理解のための新しい側面を提供すると述べています。これは、データセレクション以外のさまざまなアプリケーション、例えば包括的な評価やタグベースの自己指示などに拡張される可能性があります。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

機械学習

大きな言語モデルの謎を解き明かす:初心者のためのロードマップ

今日の高速化されたデジタル世界では、自然言語処理と言語理解の役割がますます中心的な存在となっています。この変革の波を...

AIニュース

世界初のAI搭載アーム:知っておくべきすべて

人工知能がバイオニックアームを制御する世界を想像したことがありますか? スーパーヒーローの映画から出てきたコンセプトの...

AI研究

中国の研究者がiTransformerを提案:時間系列予測のためのTransformerアーキテクチャの見直し

トランスフォーマーは、自然言語処理とコンピュータビジョンで大成功を収めた後、スケーリングのルールに従う基本モデルとな...

AI研究

UCバークレーの研究者は、目的指向の対話エージェントのゼロショット獲得を実現する人工知能アルゴリズムを提案しています

大容量の言語モデル(LLM)は、テキスト要約、質問応答、コード生成などのさまざまな自然言語タスクにおいて優れた能力を発揮...

データサイエンス

「ChatGPT Essentials:必要なデータサイエンスのチートシート」

イントロダクション 広大なデータセットから意味のある情報を抽出するために、アルゴリズム、統計学、および専門知識が交わる...

データサイエンス

「NVIDIA DGX Cloudが利用可能になり、生成型AIトレーニングを強化します」

NVIDIA DGX Cloud(ほぼすべての企業をAI企業に変えることができるツールを提供する)は、現在、Oracle Cloud Infrastructure...