「Llama 2によるトピックモデリング」

Llama 2 Topic Modeling

大規模言語モデルを使用して、簡単に解釈可能なトピックを作成する

Llama 2の登場により、ローカルで強力なLLMを実行することがますます現実のものになってきました。その精度はOpenAIのGPT-3.5に匹敵し、多くのユースケースに適しています。

この記事では、個々の文書をモデルに渡す必要がないまま、LLama2をトピックモデリングに使用する方法を探っていきます。その代わりに、トピック表現を微調整するために、任意のLLMを使用できるモジュラートピックモデリング技術であるBERTopicを利用します。

BERTopicは非常にシンプルな仕組みです。以下の5つの手順で構成されます:

  1. 文書の埋め込み
  2. 埋め込みの次元削減
  3. 次元削減された埋め込みのクラスタリング
  4. クラスタごとの文書のトークン化
  5. クラスタごとの最適な単語の抽出
BERTopicの5つの主要な手順。

ただし、Llama 2のようなLLMの台頭により、トピックごとに独立した単語の集まりよりも優れた結果を得ることができます。すべての文書を直接Llama 2に渡して分析させることは計算上の制約があります。ベクトルデータベースを使用して検索することもできますが、どのトピックを検索するかは完全にわかりません。

その代わりに、BERTopicによって作成されたクラスタとトピックを活用し、Llama 2がその情報をより正確に微調整および蒸留することができます。

これは、BERTopicによるトピックの作成とLlama 2によるトピック表現の両方の最良の結果です。

Llama 2は、BERTopicによって生成されたトピック表現を微調整することができます。

このイントロが終わったので、実践的なチュートリアルを始めましょう!

この例で使用するいくつかのパッケージをインストールしていきましょう:

pip install bertopic datasets accelerate bitsandbytes xformers adjustText

この例を実行するためには、少なくともT4 GPUが必要ですので、ご注意ください…

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

人工知能

ベイリー・カクスマー、ウォータールー大学の博士課程候補 - インタビューシリーズ

カツマー・ベイリーは、ウォータールー大学のコンピュータ科学学部の博士課程の候補者であり、アルバータ大学の新入教員です...

人工知能

Diginiのスマートセンスの社長、ガイ・イエヒアブによるインタビューシリーズ

ガイ・イハイアヴ氏は、ビジネスの成功に最も重要な資産を保護するためにインターネット・オブ・シングス(IoT)の力を活用す...

人工知能

「スノーケルAIのCEO兼共同創設者、アレックス・ラットナー - インタビューシリーズ」

アレックス・ラトナーは、スタンフォードAIラボを母体とする会社、Snorkel AIのCEO兼共同創設者ですSnorkel AIは、手作業のAI...

データサイエンス

アステラソフトウェアのCOO、ジェイ・ミシュラ - インタビューシリーズ

ジェイ・ミシュラは、急速に成長しているエンタープライズ向けデータソリューションの提供企業であるAstera Softwareの最高執...

人工知能

「ゲイリー・ヒュースティス、パワーハウスフォレンジクスのオーナー兼ディレクター- インタビューシリーズ」

ゲイリー・ヒュースティス氏は、パワーハウスフォレンジックスのオーナー兼ディレクターであり、ライセンスを持つ私立探偵、...

人工知能

「サティスファイラボのCEO兼共同創設者、ドニー・ホワイト- インタビューシリーズ」

2016年に設立されたSatisfi Labsは、会話型AI企業のリーディングカンパニーです早期の成功は、ニューヨーク・メッツ、メイシ...