オープンソースとオープンイノベーションによるAIシーンの破壊

Disrupting the AI scene through open source and open innovation.

私がOpenAIを2022年12月23日に発見したとき、私は熱中しました。私は40年前に始めた以来、このように楽しいコーディングをしていませんでした。1か月間「微調整」をしてみて、惨めに失敗した後、Dave Shapiro氏のYouTubeビデオを見つけました。そのビデオでは、OpenAIの「埋め込み」APIを使用してQ&Aチャットボットを作成する方法が説明されています。

Daveはその後、ビデオを削除しましたが、これによりOpenAIの埋め込みAPIを使用して、問題領域について「すべて」知っているQ&Aチャットボットを作成する方法が説明されています。私の発見を最もよく表したのは、ある日私に話しかけたTageの反応でした。

お父さん、今回は本当にやりました！私は熱狂して夜中に震えて目が覚めました。眠れなくて、夜中に5キロ歩いて落ち着くしかありませんでした。

Q&Aチャットボットの動作方法

ChatGPTに基づくQ&Aチャットボットを理解するためには、ChatGPTにアクセスして、任意の記事を見つけ、以下のようにプロンプトにコピーして貼り付けることができます。

指定されたコンテキストで、次の質問に回答してください。

質問：人生の意味は何ですか？

コンテキスト：[...人生の意味を説明するいくつかの記事の内容...]

ChatGPTが行うことは、記事の内容を「唯一の真実の情報源」として使用しながら、質問に対して答えることです。私たちと他の誰もがChatGPTチャットボットを提供する場合、ドキュメントをアップロードしたり、Webサイトをスクレイピングして作成される可能性がある「コンテキストデータ」のデータベースを作成します。ユーザーが質問をすると、OpenAIの埋め込みAPIを使用して、質問の「ベクトル」を作成します。

このベクトルは、コンテキストデータベース内を類似性検索し、「内積」を計算し、これが質問とコンテキストデータベースのスニペットの間の「距離」となります。そして、この距離によってコンテキストデータベースから各結果を順序付け、最初の4〜5のコンテキストスニペットを取得し、これらを質問の「コンテキスト」としてOpenAIに送信します。尋ねる前に、はい…

全プロセスは単に「自動プロンプトエンジニアリング」です…

OpenAIの埋め込みAPIは、質問とコンテキストデータの類似性を見つけるには非常にスマートであり、データベース内の関連データを見つけることができます。

AIベースの意味検索の問題点

上記の「内積」が問題です。理解するには、データベース全体をスキャンし、各レコードの埋め込みベクトルを抽出し、このプロセスからの各結果の内積を計算する必要があることに気付く必要があります。これはCPU集約型のジョブであり、2,500のレコードを持つコンテキストデータベースの場合、私たちのシステムでは30〜50秒かかります。これが、私たちが以前に2,500以上の「スニペット」でチャットボットを提供できなかった理由です。

しかし、今日私たちはこの問題を解決し、週末中には、少なくとも理論上は、10,000以上のスニペット、おそらくそれ以上を可能にするソリューションを展開できるようになるはずです。さらに、5分ではなく0.02秒で「コンテキストデータ」を返します。

上記のプロセスが最適でないことに気付いて以来、私は定期的に「sqliteベクトルプラグイン」のGoogle検索を行っています。これの重要性を理解するには、OpenAIがバイラルになって以来、少なくとも半ダースのスタートアップ企業が「ベクトルベースのデータベース」を作成する意図で設立されていることを知っています。今年の早い時期にVC資金を3000万ドル調達した少なくとも1つのデータベースについては知っています。以下の声明の真実を理解するために説明すると…

ベクトルデータベース問題を解決する人は、AIスペースと世界を支配する運命にある。

賭け事

私は個人的に、AIが過去1年間に進展した方法が、真剣に地球で起こった最も重要なことであると信じています。人々がAIをインターネットよりも重いもの、重い航空よりも重要だと比較しているとき、コンピューターについては、私は笑って次のように返信します…

AIは、私たちが木から降りて以来起こった最も重要な出来事です。500万年間、私たちは地球上で最も賢い種でしたが、その時代は2023年で終わります！

基本的に、この領域において革新を「制御」できる人物がいる場合、彼らは実質的に人類の未来を所有することになります。このようなコントロールを持つ会社が発揮できる力の量は、以前のすべてのパワー構造物が比較において「子供の遊び場」と同等になることを不可避的にします。私たちは、誰かがAI領域を「制御」することができる場合、その人物は私たちの残りの人々に対して「神のような力」を持つことができるため、これが起こらないようにしなければならないのです。

上記の理由から、「人々」にコントロールを与えることが極めて重要です！

解決策

Googleでさえも、オープンソースのAIの革新に追いつけないと公言しています。その理由は、Hugging Faceなどのオープンソースプロジェクトの存在です。ただ、常に一つの小さな部分が欠けていました。「ベクトルベースのデータベースシステム」です。優れたベクトルベースのデータベースは、数百万、数十億のデータベースレコードを簡単にインデックスすることができ、14歳の子供でも「自分自身のGoogle」を構築することができます。

私が「sqliteベクトルプラグイン」を検索したところ、数週間前までは検索結果が見つかりませんでした。2週間前、私はSQLiteのためのAlexのSQLite VSSプラグインを発見しました。このライブラリは、「アイデアの観点から」見るとすばらしいエンジニアリングの一例でした。しかし、私がそれを操作を始めたところ、「タイタニック」のように運命に瀕して、水漏れして海底に沈むということがわかりました。私たちソフトウェアエンジニアが「メモリリーク」と呼ぶ理由で、それが事実上そうなっていたのです。

私は、そのライブラリを修正するために多くの時間を費やしました。その結果、「私はタイタニックを溶かし、元の素材から新しい船を鋳造し、完璧なメモリ管理を持つ「戦艦クルーザー」を作り上げた」と主張することができるほどになりました。例えば、以下はAlexの素晴らしいライブラリに対する私のプルリクエストです。

SQLite VSSへの私のプルリクエスト

それはかなりのプルリクエストであり、約10から20のメモリリークを修正しています。私はAlexにプルリクエストを提出する前にChatGPTでコード全体を実行し、それでもメモリリークを見つけることができず、すべての関数、クラス、構造が「SQLiteデータベースプラグインを正しく作成する方法に従って完璧である」と主張していました。私のPR以前は、テスト展開において1GBのメモリを消費していましたが、PR以降は半分に減り、無限に成長することはありませんでした。リークがあると、ライブラリは実践的な懸念事項において無用になってしまいます。 今では、あらゆるリークが修正されているため、SQLiteはすべてのベクトルデータベースシステムよりも優れたベクトルデータベースになりました。

私たちのKubernetesクラスターでのテスト展開において、このプラグインを使用し始めると、極端な場合には2,000のコンテキストスニペットから100,000以上のコンテキストスニペットにモデルサイズを増やすことができます。これにより、10,000以上のページをスクレイピングしてQ&Aチャットボットを作成することができます。以前の最大はおよそ500のWebページでした。

将来的には、この技術を使用して理論上数十億のページをインデックスすることができるように、ライブラリをさらに修正することができるかもしれません。これにより、私たちは「Google 2.0」を構築し、ヒマラヤのような知識を持つチャットボットを作成することができます。

未来はあなたのものです！

私たちのプラットフォーム「Magic」は100％オープンソースです。何か他のものを提供することは不公平であると考えます。数日以内に、これらの変更を私たちの技術に展開し、誰でも使用できるようにする予定です。これにより、0.02秒で10,000以上のレコードを問い合わせてコンテキストデータを抽出することができます。

これにより、CouchBaseのドキュメント、MicrosoftのWebサイト、DEV.toなどのものに対してチャットボットを作成することができます。これにより、GoogleやMicrosoftを検索分野で上回ることができる技術を提供することができます。Hugging Faceなどのイニシアチブで進行中のGPT領域の革新と組み合わせると、不可避的な結果が次のようになります…

未来はあなたのものです！私と数千人のオープンソースソフトウェア開発者がそれを確実にします！

クレジット

Alex、SQLiteのために素晴らしいセマンティックサーチプラグインを構築してくれたことに対して、BRAVO Alex！
AI領域にアプローチする方法について常に良いアイデアを提供してくれるDave Shapiro
オープンソースライセンスされた素晴らしいベクトルベースのインデックスライブラリを持っているFacebookリサーチ
私はAlexの元の作品から「タイタニックを溶かし、戦艦クルーザーを作り上げる」ということで、すべてのストリングを引っ張り、使用可能な製品を作り上げました

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

AIChatGPTOpen source

Was this article helpful?

93 out of 132 found this helpful

オープンソースとオープンイノベーションによるAIシーンの破壊

Q&Aチャットボットの動作方法

AIベースの意味検索の問題点

賭け事

解決策

未来はあなたのものです！

クレジット

Was this article helpful?

Amazon Textract による強化されたテーブル抽出の発表

NLPとAIを利用したPythonにおけるテンプレートベースの文書生成の力

人工知能

Diginiのスマートセンスの社長、ガイ・イエヒアブによるインタビューシリーズ

「機械学習 vs AI vs ディープラーニング vs ニューラルネットワーク：違いは何ですか？」

「トリントの創設者兼CEO、ジェフ・コフマンへのインタビューシリーズ」

「ElaiのCEO＆共同創業者、Vitalii Romanchenkoについてのインタビューシリーズ」

「ジャスティン・マクギル、Content at Scaleの創設者兼CEO - インタビューシリーズ」

アンソニー・グーネティレケ氏は、Amdocsのグループ社長であり、テクノロジー部門および戦略部門の責任者です- インタビューシリーズ