ChatGPTを超えて;AIエージェント:労働者の新たな世界

AIエージェント:労働者の新たな世界

ディープラーニング、自然言語処理(NLP)、AIの進化により、AIエージェントがグローバルな労働力の重要な部分を形成する時代に入っています。これらのAIエージェントは、チャットボットや音声アシスタントを超えて、産業と私たちの日常生活の新たなパラダイムを形成しています。しかし、これらの「労働者」によって強化された世界で生活するとは、どういう意味でしょうか?この記事では、この進化する風景について深く掘り下げ、将来の意味、可能性、および課題を評価します。

短いまとめ:AI労働者の進化

今後の革命を理解する前に、すでに起こっているAI主導の進化を認識することが重要です。

  • 従来のコンピューティングシステム:基本的なコンピューティングアルゴリズムから旅が始まりました。これらのシステムは、固定されたルールセットを使用して事前に定義されたタスクを解決することができました。
  • チャットボット&早期の音声アシスタント:技術の進化に伴い、私たちのインターフェースも進化しました。Siri、Cortana、初期のチャットボットなどのツールは、ユーザーとAIの対話を簡素化しましたが、理解力と能力には限界がありました。
  • ニューラルネットワークとディープラーニング:ニューラルネットワークは転換点を示し、人間の脳の機能を模倣し、経験を通じて進化しました。ディープラーニングの技術により、洗練された画像認識や音声認識が可能になりました。
  • トランスフォーマーと高度なNLPモデル:トランスフォーマーアーキテクチャの導入により、NLPの風景が革命化されました。OpenAIのChatGPT、BERT、T5などのシステムにより、人間とAIのコミュニケーションでのブレークスルーが可能になりました。これらのモデルは、言語と文脈を深く理解しており、意味のある会話を行い、コンテンツを書き、複雑な質問にも驚異的な正確さで答えることができます。

AIエージェントの登場:単なる対話以上

今日のAIの風景は、対話ツール以上のものを示唆しています。チャット機能を超えたAIエージェントは、タスクを実行し、環境から学び、意思決定を行い、創造性さえ発揮することができます。彼らは単に質問に答えるだけではなく、問題を解決しています。

従来のソフトウェアモデルは明確なパスウェイで動作していました。利害関係者はソフトウェアマネージャーに目標を伝え、それに基づいて具体的な計画を設計しました。エンジニアはコードの行を通じてこの計画を実行しました。この「レガシーパラダイム」と呼ばれるソフトウェアの機能は明確であり、多くの人間の介入が関与していました。

しかし、AIエージェントは異なる方法で動作します。エージェントは:

  1. 目標を達成しようとします。
  2. 自分の環境対話することができます。
  3. これらの観察に基づいて計画を立て、目標を達成します。
  4. 環境の変化に応じてアプローチを調整しながら、必要なアクションを実行します。

AIエージェントを従来のモデルと真に区別するのは、目標を実現するためのステップバイステップの計画を自律的に作成できる能力です。要するに、以前はプログラマが計画を提供していましたが、現在のAIエージェントは自ら進路を切り開いています。

日常の例を考えてみましょう。従来のソフトウェア設計では、プログラムは事前に定められた条件に基づいて、ユーザーに期限切れのタスクについて通知しました。開発者は、製品マネージャーから提供された仕様に基づいてこれらの条件を設定しました。

AIエージェントのパラダイムでは、エージェント自体がユーザーにいつ、どのように通知するかを決定します。環境(ユーザーの習慣、アプリケーションの状態)を評価し、最適な行動を選択します。このプロセスはより動的で、瞬時になります。

ChatGPTは、プラグインの統合により、従来の使用方法からの脱却を果たし、複数のリクエストを実行するために外部ツールを利用することができるようになりました。これはエージェントの概念の初期の現れとなりました。簡単な例を考えてみましょう:ユーザーがニューヨーク市の天気について尋ねる場合、ChatGPTはプラグインを利用して外部の天気APIと対話し、データを解釈し、応答に基づいてコースを修正することさえできます。

AIエージェントの現在の風景

Auto-GPT、AgentGPT、BabyAGIを含むAIエージェントは、AIの広大な宇宙における新たな時代の到来を告げています。ChatGPTは、人間の入力を必要とすることで生成的AIを広めましたが、AIエージェントのビジョンは、ほとんど人間の干渉なしにAIが独立して機能することを可能にすることです。Auto-GPTの急速な成長は、GitHubでの発足からわずか6週間で10万7000以上のスターを獲得し、データサイエンスパッケージ「pandas」といった確立されたプロジェクトと比較しても前例のない成長を遂げています。

AIエージェント vs. ChatGPT

多くの高度なAIエージェント、例えばAuto-GPTやBabyAGIは、GPTアーキテクチャを利用しています。彼らの主な焦点は、AIのタスク完了において人間の介入の必要性を最小限に抑えることです。「GPTをループで」というような表現は、AgentGPTやBabyAGIなどのモデルの動作を特徴づけています。これらのモデルは、ユーザーの要求をより良く理解し、出力を洗練させるために反復サイクルで動作します。一方、Auto-GPTはインターネットアクセスとコード実行機能を組み込むことで、問題解決の範囲を大幅に広げることに成功しました。

AIエージェントのイノベーション

  1. 長期記憶:従来のLLM(Long-term Memory)は、限られたメモリしか持っておらず、最近の対話の一部しか保持しません。包括的なタスクでは、全体の会話や過去の会話を思い出すことが重要になります。この問題を克服するために、AIエージェントは埋め込みワークフローを採用し、テキストの会話を数値配列に変換することで、メモリ制約に対する解決策を提供しています。
  2. ウェブブラウジングの能力:最新の情報について常に最新の情報を把握するために、Auto-GPTはGoogle検索APIを使用したブラウジング機能を備えています。これにより、AIの知識の範囲に関してAIコミュニティ内で議論が巻き起こっています。
  3. コードの実行:コードの生成を超えて、Auto-GPTはシェルコードとPythonコードの両方を実行することができます。この前例のない能力により、他のソフトウェアとのインターフェースを実現し、その運用領域を広げることができます。

この図は、大規模言語モデルとエージェントによって駆動されるAIシステムのアーキテクチャを示しています。

  • 入力:システムは、直接のユーザーコマンド、構造化されたデータベース、ウェブコンテンツ、リアルタイムの環境センサーからデータを受け取ります。
  • LLMおよびエージェント:コアとなるLLMはこれらの入力を処理し、Auto-GPTなどの特化したエージェントと協力して、思考の連鎖、ウェブ固有のタスク、タスク固有のアクション、チームベースの処理などを行います。
  • 出力:処理された情報は、ユーザーフレンドリーな形式に変換され、外部の環境に影響を与えるデバイスに中継されます。
  • メモリコンポーネント:システムは、一時的なキャッシュと長期的なデータベースを介して情報を一時的および永続的に保持します。
  • 環境:これはセンサーに影響を与え、システムのアクションに影響を受ける外部の領域です。

高度なAIエージェント:Auto-GPT、BabyAGIなど

AutoGPTとAgentGPT

AutoGPTは、2023年3月にGitHubでリリースされた、GPT、OpenAIの革新的な生成モデルを活用した巧妙なPythonベースのアプリケーションです。Auto-GPTが他の先行モデルと異なる点は、自律性です。つまり、最小限の人間のガイダンスでタスクを実行することができ、独自のプロンプトを自己発生するというユニークな能力を持っています。ユーザーは、総合的な目標を定義するだけで、Auto-GPTがその目標を達成するために必要なプロンプトを作成します。これにより、真の人工汎用知能(AGI)への革命的な進歩が期待されます。

このツールは、インターネット接続、メモリ管理、GPT-3.5を使用したファイルストレージの機能など、幅広いタスクに対応する能力を備えており、従来のものから多くの人間の関与を必要とする複雑なタスクまで幅広く扱うことができます。

一方、GPTフレームワークに基づいて構築されたAgentGPTは、ユーザーセントリックなインターフェースであり、広範なコーディングの専門知識を必要としません。AgentGPTは、ユーザーがAIの目標を定義し、それを管理可能なタスクに分解することができます。

AgentGPTのユーザーインターフェース

さらに、AgentGPTはその柔軟性で際立っています。チャットボットの作成に限定されることはありません。このプラットフォームは、完全に自律したコーディング、テキスト生成、言語翻訳、問題解決などのタスクを、広範なコーディングのバックグラウンドを持たない人々にも可能にします。

LangChainは、さまざまなツールとの間に立つLarge Language Models(LLMs)とを結びつけ、適切なツールを選択して特定のタスクを決定し実行するためのエージェント(通常は「ボット」と呼ばれる)を利用するフレームワークです。これらのエージェントは外部リソースとシームレスに統合され、LangChainのベクトルデータベースには非構造化データが格納されており、LLMsのための迅速な情報検索を可能にしています。

BabyAGI

そして、BabyAGIというのがあります。これは、簡略化されたが非常にパワフルなエージェントです。BabyAGIの能力を理解するために、自律的にプロジェクトを作成し、整理し、実行するデジタルプロジェクトマネージャーを想像してください。与えられた目標に鋭く焦点を当ててタスクを実行します。ほとんどのAI駆動プラットフォームは事前訓練された知識によって制約されるが、BabyAGIは経験から適応し学習する能力において際立っています。フィードバックを深く理解し、人間のように試行錯誤に基づいて意思決定する能力を持っています。

特筆すべきは、BabyAGIの基盤となる強みは適応性だけでなく、特定の目標に対してコードを実行する能力の高さです。これにより、仮想通貨取引、ロボティクス、自動運転などの複雑な領域で輝き、さまざまなアプリケーションで多目的に活用できます。

Task-driven Autonomous Agent Utilizing GPT-4, Pinecone, and LangChain for Diverse Applications

このプロセスは3つのエージェントに分類することができます:

  1. 実行エージェント:システムの中心であり、このエージェントはタスク処理のためにOpenAIのAPIを利用します。目標とタスクが与えられると、OpenAIのAPIにプロンプトを送信し、タスクの結果を取得します。
  2. タスク作成エージェント:この機能は、以前の結果と現在の目標に基づいて新しいタスクを作成します。プロンプトがOpenAIのAPIに送信され、潜在的なタスクが辞書のリストとして返されます。
  3. タスク優先順位エージェント:最終フェーズは、優先順位に基づいてタスクの順序を設定することです。このエージェントはOpenAIのAPIを使用してタスクを再順序化し、最重要のタスクが最初に実行されるようにします。

OpenAIの言語モデルとの連携により、BabyAGIはPineconeのコンテキストに基づいたタスク結果のストレージと検索の能力を活用しています。

以下は、このリンクを使用したBabyAGIのデモンストレーションです。

開始するには、有効なOpenAPIキーが必要です。アクセスの容易さのために、UIには設定セクションがあり、OpenAPIキーを入力できます。また、コスト管理をする場合は、イテレーションの数に制限を設定することを忘れないでください。

アプリケーションを構成した後、小さな実験を行いました。BabyAGIにプロンプトを投稿しました。「成長の旅に焦点を当て、マイルストーン、チャレンジ、継続的な学習の変革力に触れた短いツイートスレッドを作成してください」というものです。

BabyAGIは緻密な計画で応答しました。汎用のテンプレートではなく、リクエストのニュアンスを正確に理解していることを示す包括的なロードマップでした。

Deepnote AI Copilot

Deepnote AI Copilotは、ノートブックでのデータ探索のダイナミクスを再構築します。しかし、それが他と異なる点は何でしょうか?

Deepnote AIの核心は、データサイエンティストのワークフローを補完することです。基本的な指示を提供すると、AIは自動的に動き出し、戦略を立て、SQLクエリを実行し、Pythonを使用してデータを可視化し、見つけた結果を明確に提示します。

Deepnote AIの強みの一つは、ワークスペースの包括的な把握力です。統合スキーマやファイルシステムを理解することで、組織のコンテキストと完璧に一致した実行計画を立て、常に関連性のある洞察を提供します。

AIがノートブックVoAGIsと統合することで、ユニークなフィードバックループが形成されます。コードの出力を積極的に評価し、自己修正に優れ、設定された目標と一貫した結果を保証します。

Deepnote AIは、プロセスの透明性によって特徴づけられており、その操作の明確な洞察を提供します。コードと出力の絡み合いにより、常にアクションが説明可能で再現可能であることを保証します。

CAMEL

CAMELは、AIエージェント間の協力を促進し、最小限の人間の監視で効率的なタスク完了を目指すフレームワークです。

https://github.com/camel-ai/camel

キャメルは、その操作を2つの主要なエージェントタイプに分けています:

  • AIユーザーエージェントは指示を配置します。
  • AIアシスタントエージェントは提供された指令に基づいてタスクを実行します。

CAMELの目標の1つは、AIの思考プロセスの複雑さを解明し、複数のエージェント間の相乗効果を最適化することです。役割演じやインセプション促進などの機能により、AIのタスクは人間の目標とシームレスに一致するようになっています。

ウエストワールドシミュレーション:AIへの命

Unityソフトウェアなどのインスピレーションを元に、Pythonで適応されたウエストワールドシミュレーションは、複数のAIエージェントが相互作用する環境をシミュレートして最適化することを目指しています。まるでデジタル社会のようです。

生成エージェント

これらのエージェントは単なるデジタルの存在ではありません。彼らは日常のルーティンから複雑な社会的相互作用まで、信じられるべき人間の行動をシミュレートします。彼らのアーキテクチャは、経験を保存し、それについて考え、それを動的な行動計画に使用するために、大規模な言語モデルを拡張します。

ウエストワールドの対話型サンドボックス環境は、ザ・シムズを彷彿とさせる町を生み出し、生成エージェントで人口を増やします。ここでは、ユーザーはこれらのエージェントと対話し、彼らの日常を見守り、彼らを案内することができます。新興の振る舞いや複雑な社会的ダイナミクスを観察することができます。

ウエストワールドシミュレーションは、計算能力と人間のような複雑さの調和した融合を示しています。巨大な言語モデルと動的なエージェントシミュレーションを組み合わせることで、現実と見分けがつかないほどのAI体験を創り出す道を開拓しています。

結論

AIエージェントは非常に多目的であり、産業を形成し、ワークフローを変え、かつて不可能と思われた偉業を可能にしています。しかし、すべての画期的なイノベーションと同様に、彼らには完璧ではない部分もあります。

彼らは私たちのデジタル存在の本質を再構築する力を持っていますが、これらのエージェントは依然としていくつかの課題に直面しています。その中には、微妙なシナリオの文脈を理解することや、訓練データの範囲外の問題に取り組むことなど、本質的に人間的な課題も含まれます。

次の記事では、AutoGPTとGPT Engineerについて詳しく調査し、それらを設定して使用する方法を探ります。また、これらのAIエージェントが時折失敗する原因(ループに囚われたり、その他の問題が発生したりするなど)についても探求します。お楽しみに!

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

AIニュース

コンピュータ芸術の先駆者、ヴェラ・モルナールさんが99歳で亡くなりました

ヴェラ・モルナールは、ハンガリー生まれの画家であり、彼女の先駆的なデジタル作品においてジェネラティブアートの代表的存...

コンピュータサイエンス

「企業が職場のAIを求める中、テック企業が急いで提供する」

アマゾン、ボックス、セールスフォース、オラクルなどの企業は最近、職場の効率と生産性を向上させるためのAI関連製品を提供...

データサイエンス

Google AIは、屋外での人間の視点によるシーン理解のためのマルチ属性ビデオデータセットであるSANPOを導入しました

自動運転などのタスクにおいて、AIモデルは道路や歩道の3D構造だけでなく、道路標識や信号機を識別・認識する必要があります...

機械学習

「機械学習、ブロックチェーン技術はフェイクニュースの拡散に対抗するのに役立つかもしれません」

新たな研究によると、提案された機械学習のフレームワークとブロックチェーン技術の拡大利用は、フェイクニュースの拡散に対...

機械学習

機械学習を用いたサッカータッチダウンの予測

日本語訳:「フットボール全米のファンを結びつける、アメリカの伝統的なスポーツです1試合平均1670万人の視聴者数と、スーパ...

機械学習

MAmmoTHとは、一般的な数学問題解決に特化したオープンソースの大規模言語モデル(LLM)シリーズです

現代の大規模言語モデル(LLM)は、数学的な推論に大きく依存しており、それがこの研究の主な焦点です。最近の進歩にもかかわ...