あなたの究極のチャットGPTおよびその他の略語ガイド
Ultimate Chat GPT and Other Abbreviations Guide
これらの略語 – ML、AI、AGI – はどういう意味ですか?
ML(機械学習)は、プログラミング言語を使用してコーディングする代わりに、データサンプルから「学習」するアルゴリズムを構築することで、難解な計算問題を解決するアプローチです。
AI(人工知能)は、伝統的なプログラミングを使用して解決するのが難しい問題(例:画像分類、人間の言語処理)に対処するコンピュータ科学の分野です。MLとAIは手を取り合っており、AIで定式化された問題を解決するためのツールとしてのMLです。
AGI(人工汎用知能)- AIで一般的に暗示されるものが正しい用語であり、コンピュータが人間のような知的能力と幅広い推論力を実現する能力を指します。これは、AI分野で研究している研究者たちにとってまだ聖杯です。
- 2023 AIインデックスレポート:将来に期待できるAIトレンド
- OpenChatのご紹介:カスタムチャットボットを数分で構築するための無料でシンプルなプラットフォーム
- 自律型AIエージェントについて知る必要性
ニューラルネットワークとは何ですか?
人工ニューラルネットワーク(ANN)とは、生物学的ニューロン組織の構造から着想を得たため、このように呼ばれるMLアルゴリズムおよびデータ構造のクラス(またはモデル)です。しかし、これはすべての生物学的メカニズムを完全に模倣するものではありません。代わりに、ANNは、生物種の生物学的アイデアに基づいた複雑な数学関数です。
「モデルには20億のパラメータがある」と読むと、これはどういう意味ですか?
ニューラルネットワークは、ネットワーク内で互いに接続された均一なユニットで構成された層状の構造です。これらのユニットが相互接続される方法をアーキテクチャと呼びます。各接続には、重みと呼ばれる関連番号があり、重みはモデルがデータから学習する情報を格納します。したがって、「モデルには20億のパラメータがある」と読むと、モデルには20億の接続(および重み)があることを意味し、ニューラルネットワークの情報容量をおおよそ示します。
ディープラーニングとは何ですか?
ニューラルネットワークは1980年代から研究されてきましたが、コンピュータゲーム業界が安価なパーソナルスーパーコンピューターであるグラフィカルプロセッシングユニット(GPU)を導入したときに本格的な影響を与えました。研究者たちは、このハードウェアをニューラルネットワークのトレーニングプロセスに適応させ、印象的な結果を達成しました。最初のディープラーニングアーキテクチャの1つである畳み込みニューラルネットワーク(CNN)は、古典的なコンピュータビジョンアルゴリズムでは困難だった複雑な画像認識を実行できました。以来、ニューラルネットワークによるMLは、ネットワークが探索できる複雑なNNアーキテクチャに「ディープ」という言葉を使って、ディープラーニングとして再ブランド化されました。
この技術がどのように機能するかの詳細をもっと知りたい場合はどこで情報を得られますか?
私は、グラント・サンダーソン氏が提供するアニメーション付き数学チャンネルの動画をお勧めします。
大規模言語モデルとは何ですか?
コンピュータを使用して人間の言語を扱うためには、言語を数学的に定義する必要があります。このアプローチは、すべての言語の特徴を含めるに十分な汎用性を持っている必要があります。2003年、研究者たちはニューラルネットワークで言語を表現する方法を発見し、ニューラル確率言語モデルまたはLMと呼びました。これは、モバイル電話の予測テキストのように機能し、いくつかの初期の単語(またはトークン)が与えられると、モデルはそのトークンとそれぞれの確率を予測することができます。これを入力として使用して以前に生成された単語を続ける(これが自己回帰です)–モデルは、トレーニングされた言語でテキストを生成できます。
言語モデルについて読むと、しばしば「トランスフォーマー」という用語に遭遇します。これは何ですか?
アイテムのシーケンスの表現は、ニューラルネットワークにとっては難しい問題でした。この問題を解決するためにいくつかの試みが行われました(主に再帰ニューラルネットワークの変化の周りで行われたもので、単語の埋め込み、エンコーダー-デコーダーアーキテクチャ、および注意メカニズムなどの重要なアイデアが生まれました)。 2017年、Googleの研究者グループは、これらすべてのアイデアを組み合わせた新しいNNアーキテクチャを提案し、トランスフォーマーと呼びました。これは、言語翻訳問題を解決するために設計されたものでした(したがって、その名前)が、シーケンスデータの統計的特性を捕捉するために効率的であることが証明されました。
なぜみんなOpenAIについて話すのですか?
OpenAIは、トランスフォーマーを使用してニューラル確率言語モデルを構築しました。その実験の結果は、GPT(生成事前トレーニングトランスフォーマー)モデルと呼ばれます。事前トレーニングとは、インターネットでマイニングされた大量のテキストでトランスフォーマーNNをトレーニングし、言語表現とテキスト生成のためにデコーダー部分を取ることを意味します。いくつかのGPTの世代がありました:
- GPT-1:アプローチを検証するための初期の実験モデル
- GPT-2:人間の言語テキストを生成する能力や、ゼロショット学習(特別にトレーニングされていないドメインにも汎用化できる能力、例えば言語翻訳やテキスト要約など)を示す
- GPT-3:アーキテクチャのスケールアップ(GPT-2の15億パラメーターに対し、最大のGPT-3は1750億)、より大規模で多様なテキストのボディでトレーニングされた。最も重要な特徴は、プロンプトでわずか数例しか見ていなくても、様々なドメインのテキストを生成できる能力(したがって、フューショート学習という用語)であり、特別なファインチューニングや事前トレーニングは必要ない。
- GPT-4:さらに大きなモデル(正確な特性は非公開)、より大規模なトレーニングデータセット、およびマルチモダリティ(テキストに画像データを増幅)
GPTモデルには膨大な数のパラメーターがあります(実際、これらのモデルをトレーニングおよび提供するために数百から数千のGPUを持つ巨大なコンピュータクラスターが必要です)。そのため、これらは大規模言語モデル(LLM)と呼ばれています。
GPT-3とChatGPTの違いは何ですか?
元のGPT-3は単語予測エンジンであり、そのため主にAI研究者や計算言語学者に興味があります。ある初期のシードまたはプロンプトを与えられると、無限にテキストを生成でき、実用的な意味はあまりありません。OpenAIチームはモデルを引き続き実験し、プロンプトを実行するための命令としてファインチューニングする試みを続けました。人間によるキュレーションされたダイアログの大規模なデータセットをフィードし、新しいアプローチ(RLHF – ヒューマンフィードバックからの強化学習)を発明し、バリデータエージェントとして別のニューラルネットワークを使用してこのプロセスを大幅に高速化しました(AIの研究では典型的なもの)。彼らは、より小さなGPT-3バージョンをベースにしたInstructGPTというモデルをMVPとしてリリースし、2022年11月にはフル機能版のChatGPTというモデルをリリースしました。シンプルなチャットボットとWeb UIを備えており、ITの世界を変えました。
言語モデルアラインメント問題とは何ですか?
LLMは洗練された統計的な機械であるため、生成プロセスは予期しない方向に進む可能性があります。このタイプの結果は、AIハルシネーションと呼ばれることがありますが、アルゴリズムの観点からは、人間のユーザーにとっては予期せぬものでも妥当です。
生のLLMには、前述のように、人間のバリデータとRLHFの追加のファインチューニングが必要です。これは、LLMを人間の期待に合わせるためのアラインメントであり、プロセス自体がアラインメントと呼ばれるのは驚くべきことではありません。これは、かなりの人間の作業が必要な長くて退屈な手順であり、LLMの品質保証と見なすことができます。モデルのアラインメントがOpenAI / Microsoft ChatGPTとGPT-4をそのオープンソースの対応物と区別するものです。
言語モデルのさらなる開発を停止する動きがあるのはなぜですか?
ニューラルネットワークはブラックボックスであり(上にある構造を持つ巨大な数値配列)、その内部を探索してデバッグするためのいくつかの方法がありますが、GPTの例外的な汎化能力は説明されていません。これが禁止運動の主な理由です。一部の研究者は、LLMの基盤となるプロセスをより良く理解する前に、火を遊んでいると考えています(SFはAGIの誕生や技術的特異点の魅力的なシナリオを提供しています)。
LLMの実用的な使用例は何ですか?
最も一般的なものには、以下が含まれます:
- 大規模なテキスト要約
- 大まかな要約からテキストを生成する
- テキストスタイリング(著者やキャラクターを模倣する)
- 個人のチューターとして使用する
- 数学/科学問題を解決する
- テキストに関する質問に答える
- 短い説明からプログラムコードを生成する
GPTが現在唯一のLLMですか?
GPTはAPIアクセスがOpenAIおよびMicrosoft Azure OpenAIサービス(プライベートサブスクリプションが必要な場合)によって提供されているものの、これはAIの最前線であり、ChatGPTのリリース以降、多くの興味深いことが起こっています。GoogleはPaLM-2モデルを構築し、Metaは研究者向けにLLaMAモデルをオープンソース化し、それが多くの微調整や改良(StanfordのAlpacaなど)と最適化を促し、今ではLLMをノートパソコンやスマートフォンで実行できるようになりました。
Huggingfaceは、完全にオープンソースであり、LLaMAの研究専用制限がないBLOOM、StarCoder、HuggingChatを提供しています。Databricksは、独自の完全にオープンソースのDollyモデルを訓練しました。Lmsys.orgは、独自のVicuna LLMを提供しています。Nvidiaの深層学習研究チームは、Megatron-LMモデルを開発しています。また、GPT4Allイニシアチブも言及に値します。
ただし、これらのオープンソースの代替品は、まだOpenAIの主要な技術(特にアラインメントの観点から)よりも遅れていますが、ギャップは急速に縮まっています。
この技術をどのように利用できますか?
最も簡単な方法は、OpenAIの公共サービスまたはプラットフォームAPIプレイグラウンドを使用することです。これにより、モデルへの低レベルアクセスやネットワーク内部動作のより多くの制御(システムコンテキストの指定、生成パラメータのチューニングなど)が可能になります。ただし、ユーザーの相互作用を追加のモデル改善およびトレーニングに使用するため、サービス契約を注意深く確認する必要があります。また、同じAPIとツールを提供するMicrosoft Azure OpenAIサービスを選択することもできますが、こちらはプライベートモデルインスタンスで提供されます。
より冒険心のある方は、HuggingFaceにホストされているLLMモデルを試すことができますが、Pythonとデータサイエンスのツールについてより熟練している必要があります。 Denis Shipilovは、分散システムの設計からBigDataおよびData Science関連プロジェクトまで幅広い専門知識を持つ経験豊富なソリューションアーキテクトです。
We will continue to update VoAGI; if you have any questions or suggestions, please contact us!
Was this article helpful?
93 out of 132 found this helpful
Related articles