南開大学と字節跳動の研究者らが『ChatAnything』を導入:LLM強化された人物像生成に特化した革新的なAIフレームワーク

南開大学と字節跳動の研究者らが、『ChatAnything』導入:LLM強化された人物像生成に特化した革新的なAIフレームワークの紹介

南開大学と字節跳動の研究者チームが、オンラインで大規模な言語モデル(LLM)ベースのキャラクターのための人間らしさのあるパーソナリティを生成するための新しい枠組みである「ChatAnything」を導入しました。その目的は、テキストの説明だけで、ビジュアルの外見、パーソナリティ、トーンに基づいたカスタマイズされたパーソナリティを作成することです。研究者たちは、LLMのコンテキスト学習能力を活用して、注意深く設計されたシステムプロンプトを使用してパーソナリティを生成します。彼らは、多様な声と外見の生成のための革新的な概念である「声の混合(MoV)」と「拡散分散の混合(MoD)」を提案しています。

MoVは、テキストに基づいて最もマッチするものをユーザーが提供するテキストの説明に基づいて選択する、事前に定義された音調を持つテキスト読み上げ(TTS)アルゴリズムを使用します。MoDは、テキストから画像生成の技術と話者の頭のアルゴリズムを組み合わせて、話すオブジェクトの生成プロセスを合理化します。しかし、現在のモデルによって生成される人間のようなオブジェクトは、事前訓練された顔のランドマーク検出器によってしばしば検出できないという課題があり、顔の動きの生成に失敗することがあります。これに対処するために、彼らは画像生成中にピクセルレベルのガイダンスを組み込んでヒューマンフェイスのランドマークを注入します。このピクセルレベルの注入により、顔のランドマーク検出率が大幅に向上し、生成された音声コンテンツに基づく自動顔アニメーションが可能になります。

本稿では、大規模な言語モデル(LLM)とそのコンテキスト学習能力の最近の進展について議論し、それらを学術的な議論の最前線に位置づけています。研究者たちは、カスタマイズされたパーソナリティ、声、ビジュアルの外観を持つLLM強化パーソナリティを生成するための枠組みの必要性を強調しています。パーソナリティ生成において、彼らはLLMのコンテキスト学習能力を活用し、テキスト読み上げ(TTS)APIを使用してボイスモジュールのプールを作成します。声の混合(MoV)モジュールは、ユーザーのテキスト入力に基づいて音調を選択します。

音声駆動の話し手の動きや表情の視覚的な外見は、最近の話し手の頭のアルゴリズムを使用して取り組まれています。しかし、拡散モデルによって生成された画像を話し手の頭のモデルの入力として使用する際に課題があります。最先端の話し手の頭のモデルでは、画像のうちわずか30%しか検出できないということを示しており、データの分布の不整合があることを示しています。このギャップを埋めるために、研究者たちはゼロショットの方法を提案し、画像生成のフェーズで顔のランドマークを注入します。

提案されたChatAnythingの枠組みは、LLMベースの制御モジュール、ポートレート初期化子、テキスト読み上げモジュールの混合、および動き生成モジュールの4つの主要なブロックで構成されています。研究者たちは、拡散モデル、声の変換、構造制御を組み合わせて、モジュラーかつ柔軟なシステムを作成しました。ガイドされた拡散の効果を検証するために、研究者たちはさまざまなカテゴリのプロンプトを含む検証データセットを作成しました。彼らは事前訓練された顔のキーポイント検出器を使用して顔のランドマーク検出率を評価し、彼らの提案した方法の影響を示しています。

この研究者たちは、人間らしい特徴を持つLLM強化のパーソナリティを生成するための包括的なChatAnythingの枠組みを紹介しています。彼らは顔のランドマークの検出に関する課題に対処し、革新的な解決策を提案し、検証データセットで有望な結果を示しています。この研究は、生成モデルと話し手の頭のアルゴリズムを統合する未来の研究やデータ分布の整合性の向上の可能性を示しています。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

データサイエンス

機械学習を革新する:たった7行のコードでAutoGluonを使ってKaggleのトップ4%を達成

Slalom _buildで新しいデータエンジニアリングの役割を始めてから、数年前のMLの経験を最新化する必要があることに気付きまし...

データサイエンス

「FP8を用いたPyTorchトレーニング作業の高速化」

過去数年間、AIの分野では革命的な進展が見られており、特に最近のChatGPTなどのLLMベースのアプリケーションの人気と普及を...

コンピュータサイエンス

「生成AIツールが自己学習のためのテキストを急速に使い尽くしている」

「OpenAIや他のAI開発者のデータ収集プラクティスに関する最新の懸念が提起されています」

人工知能

「思考の連鎖を自動化する:AIが自身に推論を促す方法」

Auto-CoTのプロンプト手法は、多様性に基づくサンプリングとゼロショット生成を使用して、LLMsが複雑な推論を促すために自ら...

機械学習

テンセントAIラボは、検索補完された言語モデルの堅牢性と信頼性を高めるために、Chain-of-Noting(CoN)を導入します

Tencent AI Labの研究者は、検索補完型の言語モデル(RALM)の信頼性に関する課題に取り組み、関連性のない情報を取得し、誤...

機械学習

「MACTAに会いましょう:キャッシュタイミング攻撃と検出のためのオープンソースのマルチエージェント強化学習手法」

私たちは複数の形式のデータに圧倒されています。金融部門、医療、教育部門、または組織からのデータであっても、そのデータ...