[GPT-4V-Actと出会いましょう:GPT-4V(ision)とウェブブラウザを調和させたマルチモーダルAIアシスタント]

「GPT-4V-Actとの出会い:ウェブブラウザと調和するマルチモーダルAIアシスタント、GPT-4V(ision)」

最新プロジェクトのGPT-4V-Actのリリースを、Machine Learningの研究者が最近Redditコミュニティと共有しました。このアイデアは、GPT-4VのSet-of-Markとして知られる視覚地上戦略の最近のディスカッションで火をつけられました。興味深いことに、テストではこの機能を備えたGPT-4Vがユーザーインターフェースのスクリーンショットを分析し、特定のタスクを完了するために必要なピクセル座標を提供できることが示されました。

これまで、このエージェントはRedditでの投稿、製品検索、そしてレジプロセスの開始などが可能であり、限られたテストにしか耐えていませんが、興味深いことに、ゲームをプレイしようとした際にオートラベラーの欠陥を認識し、そのアクティビティを修正しようとしました。

GPT-4V(ision)とウェブブラウザを完全に統合したGPT-4V-Actは、明晰なマルチモーダルAIヘルパーです。これにより、マウスとキーボードの入出力の低レベルまで人間の制御をシミュレートすることができます。この目標は、人間とコンピュータの間の作業の円滑なフローを提供し、どのUIの使いやすさを大幅に向上させ、ワークフローの自動化を容易にし、自動化されたUIテストの利用を可能にする技術の開発につなげることです。

動作原理

GPT-4V-Actは、GPT-4V(ision)とSet-of-Mark Prompting、および個別のオートラベラーを組み合わせることで実現されます。対話可能なユーザーインターフェースの要素ごとに、このオートラベラーによって数値のIDが付けられます。

GPT-4V-Actは、タスクとスクリーンショットからタスクの完了に必要な手順を推測することができます。番号のラベルは、マウスやキーボードによって入力された場合に正確なピクセル座標へのポインタとして使用できます。

重要な注意

GPT-4V(ision)は一般に公開されていないため、このプロジェクトでのマルチモーダルなプロンプティングには、現在のChatGPT Plusの購読が必要です。なお、このプロジェクトでの未承認のGPT-4V APIの使用は、対応するChatGPTの利用条件に違反する可能性があります。

関数呼び出しなどの機能を備えた言語モデル(LM)の使用は増加しています。これらは主にAPIと状態のテキスト表現上で動作します。ユーザーインターフェース(UI)を持つエージェントは、これらが不可能な一般的な状況でより有用かもしれません。エージェントのコンピュータとの相互作用が人間に類似しているため、専門的な知識を必要とせず、エキスパートのデモによるトレーニングが行われることができます。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

AI研究

「Googleの研究者が球面上でのディープラーニングのためのJAX向けのオープンソースライブラリを紹介します」

ディープラーニングは、入力から複雑な表現を自動的に学習する機械学習の一部です。その応用は、言語処理のための画像と音声...

AI研究

NYUとNVIDIAが協力して、患者の再入院を予測するための大規模言語モデルを開発する

退院は患者にとって重要なマイルストーンですが、時には回復への道のりの終わりではありません。米国では、初回退院後30日以...

機械学習

「このAIニュースレターが必要なすべて #59」

今週、Zoomの利用規約の変更(3月から)が、顧客のビデオデータの使用に関する懸念が拡散したことで注目されましたZoomの利用...

AI研究

マイクロソフトの研究者たちは、FP8混合精度トレーニングフレームワークを公開しました:大規模な言語モデルのトレーニング効率を超高速化します

大型言語モデルは、言語生成と理解の能力において以前に類を見ない優れた能力を示しており、論理学、数学、物理学、他の領域...

AI研究

「ジョンズ・ホプキンス大学の研究者たちは、がんに関連するタンパク質フラグメントを正確に予測することができる深層学習技術を開発しました」

ジョンズ・ホプキンス大学のエンジニアとがん研究者は、最先端の深層学習技術を駆使して、個別のがん治療における画期的な突...

AIニュース

「類推的な & ステップバック型プロンプティング:Google DeepMindの最新の進歩に潜入する」

「Google DeepMindの最新研究による2つの新しいプロンプト工学技術を探求し、アナロジカルプロンプティングとステップバック...