「MongoDBの時系列コレクションとAmazon SageMaker Canvasで洞察力の向上を加速する」
「MongoDBの時系列コレクションとAmazon SageMaker Canvasを活用して洞察力の向上を加速する方法」
この記事は、MongoDBのBabu Srinivasanと共同執筆したゲスト投稿です。
現代の急速なビジネス環境において、産業が進化する中でリアルタイムの予測ができないことは、正確でタイムリーな情報に依存する産業にとって重要な課題を提起します。様々な産業でリアルタイムの予測ができないことは、意思決定や業務効率に大きな影響を与えるビジネス上の課題を提起します。リアルタイムの洞察がないと、企業は動的な市場状況に適応できず、顧客の需要を正確に予測し、在庫レベルを最適化し、積極的な戦略的な意思決定を行うことが困難です。金融、小売業、サプライチェーン管理、物流などの産業は、機会の逸失、コストの増加、効率的なリソース配分の不備、および顧客の期待に応えることができないリスクを抱えています。これらの課題を探求することで、組織はリアルタイムの予測の重要性を認識し、これらの障害を乗り越えるための革新的なソリューションを探索することができます。これにより、組織は競争力を維持し、情報に基づいた意思決定を行い、現代の急速なビジネス環境で繁栄することができます。
MongoDBのネイティブのタイムシリーズデータの潜在能力を活用し、Amazon SageMaker Canvasの力と統合することで、組織はこれらの課題を克服し、新たな柔軟性のレベルを開放することができます。MongoDBの堅牢なタイムシリーズデータ管理により、リアルタイムで大量のタイムシリーズデータを格納および抽出できる一方、高度な機械学習アルゴリズムと予測能力により、SageMaker Canvasで正確で動的な予測モデルを提供できます。
この記事では、MongoDBのタイムシリーズデータとSageMaker Canvasの潜在能力について探求します。
- 「コンピュータビジョン101」
- 「Javaアプリケーションのレイテンシー削減」
- 『中にFunSearch:GoogleのDeepMindの新しいLLM、新しい数学とコンピューターサイエンスのアルゴリズムを見つけることができる』
MongoDB Atlas
MongoDB Atlasは、クラウド上でのMongoDBデータベースの展開とスケーリングを簡素化するための完全管理型の開発者データプラットフォームです。これは、完全に管理されたデータベースを提供し、組み込みの全文検索およびベクトル検索、ジオスペーシャルクエリのサポート、チャート、および効率的なタイムシリーズの格納とクエリ能力のネイティブサポートを提供します。MongoDB Atlasは自動のシャーディング、水平スケーラビリティ、および高容量データの効率的なインデックス作成も提供します。これらの中で、ネイティブのタイムシリーズの機能は際立った特徴であり、ビジネスクリティカルなアプリケーションデータ、テレメトリ、サーバーログなどの大量のタイムシリーズデータを管理するのに理想的です。効率的なクエリ、集計、および分析により、ビジネスはタイムスタンプ付きデータから価値ある洞察を抽出できます。これらの機能を使用することで、ビジネスは効率的にタイムシリーズデータを格納、管理、分析し、データに基づく意思決定を行い、競争力を獲得することができます。
Amazon SageMaker Canvas
Amazon SageMaker Canvasは、ビジネスアナリストやデータサイエンティストが、MLの経験がなく、一行のコードを書く必要もなく、カスタムのMLモデルを構築および展開できるビジュアルな機械学習(ML)サービスです。SageMaker Canvasは、タイムシリーズの予測を含む多数のユースケースをサポートし、ビジネスが将来の需要、販売、リソース要件、およびその他のタイムシリーズデータを正確に予測することを可能にします。このサービスは、複雑なデータパターンを処理するためのディープラーニングの技術を使用し、少ない過去のデータでも正確な予測を生成することができます。Amazon SageMaker Canvasの機能を使用することで、ビジネスは情報に基づいた意思決定を行い、在庫レベルを最適化し、業務効率を向上させ、顧客満足度を向上させることができます。
SageMaker CanvasのUIを使用すると、クラウドやオンプレミスのデータソースをシームレスに統合し、データセットを容易にマージし、正確なモデルをトレーニングし、出現データを使用して予測を行うことができます。すべてにおいてコーディング不要です。自動化されたワークフローやアプリへの直接のMLモデル統合が必要な場合、Canvasの予測機能はAPIを介してアクセスできます。
ソリューションの概要
ユーザーはトランザクションの時系列データをMongoDB Atlasに保持します。Atlas Data Federationを介して、データがAmazon S3バケットに抽出されます。Amazon SageMaker Canvasはデータにアクセスしてモデルを構築し、予測を作成します。予測の結果はS3バケットに保存されます。MongoDB Data Federationサービスを使用して、予測はMongoDB Chartsを介して視覚的に表示されます。
以下の図は提案されたソリューションアーキテクチャを示しています。
前提条件
このソリューションでは、時系列データを保存するためにMongoDB Atlas、モデルのトレーニングと予測の生成にAmazon SageMaker Canvas、MongoDB Atlasから抽出されたデータを保存するためにAmazon S3を使用します。
次の前提条件を満たしていることを確認してください:
MongoDB Atlasクラスタの設定
クラスタの作成 の手順に従って、無料のMongoDB Atlasクラスタを作成します。データベースアクセスとネットワークアクセスを設定します。データベースアクセスおよびネットワークアクセス。
MongoDB Atlasで時系列コレクションを作成する
このデモンストレーションの目的で、Kaggleからサンプルデータセットを使用し、同じデータをMongoDB Atlasにアップロードします。MongoDB ツール、特にMongoDB Compassを使用してください。
以下のコードは、時系列コレクションのサンプルデータセットを示しています:
{"store": "1 1","timestamp": { "2010-02-05T00:00:00.000Z"},"temperature": "42.31","target_value": 2.572,"IsHoliday": false}
以下のスクリーンショットは、MongoDB Atlasのサンプルの時系列データを示しています:
S3バケットの作成
AWSでS3バケットを作成し、時系列データを保存および分析する場所を指定します。2つのフォルダがあります。 sales-train-data
はMongoDB Atlasから抽出されたデータを保存するために使用され、sales-forecast-output
にはCanvasの予測結果が含まれています。
データ連合の作成
Atlasでデータ連合を設定し、以前に作成したS3バケットをデータソースの一部として登録します。Atlasクラスタ、MongoDB AtlasデータのためのS3バケット、Canvasの結果を保存するためのS3バケットの3つの異なるデータベース/コレクションが作成されることに注意してください。
以下のスクリーンショットは、データ連邦の設定を示しています。
Atlasアプリケーションサービスのセットアップ
MongoDBアプリケーションサービスを作成し、$out集計を使用してMongoDB AtlasクラスタからS3バケットにデータを転送する機能を展開します。
データソースの構成を確認する
アプリケーションサービスは新しいAtlasサービス名を作成し、後続の関数でデータサービスとして参照する必要があります。Atlasサービス名が作成されたことを確認し、将来の参照のためにメモしてください。
関数を作成する
Atlasアプリケーションサービスを設定して、トリガーと関数を作成します。トリガーは、モデルのトレーニングに必要なビジネスニーズに基づいてS3にデータを書き込む頻度ごとにスケジュールする必要があります。
次のスクリプトは、S3バケットに書き込むための関数を示しています:
exports = function () { const service = context.services.get(""); const db = service.db("") const events = db.collection(""); const pipeline = [ { "$out": { "s3": { "bucket": "<S3_bucket_name>", "region": "<AWS_Region>", "filename": {$concat: ["<S3path>/<filename>_",{"$toString": new Date(Date.now())}]}, "format": { "name": "json", "maxFileSize": "10GB" } } } } ]; return events.aggregate(pipeline);};
サンプル関数
関数は[実行]タブから実行でき、アプリケーションサービスの[ログ]機能を使用してデバッグできます。また、左側のメニューの[ログ]メニューを使用してエラーをデバッグすることもできます。
以下のスクリーンショットは、関数の実行と出力を示しています:
Amazon SageMakerキャンバスでデータセットを作成する
以下の手順は、SageMakerのドメインとユーザープロファイルを作成したことを前提としています。まだ行っていない場合は、SageMakerドメインおよびユーザープロファイルを構成してください。ユーザープロファイルでは、S3バケットをカスタムに設定し、バケット名を指定します。
完了したら、SageMakerキャンバスに移動し、ドメインとプロファイルを選択し、キャンバスを選択します。
データソースを供給するデータセットを作成します。
データソースとしてS3を選択します。
S3バケットからデータの場所を選択し、データセットを作成します。
スキーマを確認し、データセットを作成するをクリックします。
インポートに成功した場合、次のスクリーンショットに示すようにデータセットがリストに表示されます。
モデルのトレーニング
次に、Canvasを使用してモデルのトレーニングを設定します。データセットを選択して作成をクリックします。
モデル名を作成し、予測分析を選択し、作成を選択します。
ターゲットカラムを選択します。
次に、時系列モデルを構成して、アイテムID列としてitem_idを選択します。
タイムスタンプ列にtm
を選択します。
予測する時間の量を指定するために、8週間を選択します。
モデルのプレビューやビルドプロセスの起動の準備が整いました。
モデルのプレビューまたはビルドを起動した後、モデルが作成されるまで最大4時間かかる場合があります。画面を離れても、モデルのトレーニング状況を確認するために戻ってくることができます。
モデルが準備できたら、モデルを選択し、最新バージョンをクリックしてください
モデルのメトリクスとカラムの影響を確認し、モデルのパフォーマンスに満足した場合は、予測をクリックしてください。
次に、バッチ予測を選択し、データセットを選択してください。
データセットを選択し、データセットを選択してください。
次に、予測の開始をクリックしてください。
SageMakerのInference、バッチトランスフォームジョブの下で作成されたジョブを観察するか、ジョブの進行状況を観察してください。
ジョブが完了したら、ジョブを選択し、Canvasが予測を保存したS3パスをメモしてください。
Atlas Chartsで予測データを可視化する
予測データを可視化するには、MongoDB AtlasチャートをFederatedデータ(amazon-forecast-data)に基づいて作成し、以下のチャートに示すようにP10、P50、およびP90の予測を行ってください。
整理
- MongoDB Atlasクラスターを削除する
- Atlas Data Federationの設定を削除する
- Atlas Application Service Appを削除する
- S3バケットを削除する
- Amazon SageMaker Canvasのデータセットとモデルを削除する
- Atlas Chartsを削除する
- Amazon SageMaker Canvasからログアウトする
結論
この記事では、MongoDBの時系列データコレクションからデータを抽出しました。これは、時系列データの格納とクエリ速度の最適化に特化したコレクションです。Amazon SageMaker Canvasを使用してモデルをトレーニングし、予測を生成し、それをAtlas Chartsで可視化しました。
詳細については、以下の情報を参照してください。
- MongoDB Atlasを試す
- MongoDB Atlasの時系列データを試す
- Amazon SageMaker Canvasを試す
- MongoDB Chartsを試す
We will continue to update VoAGI; if you have any questions or suggestions, please contact us!
Was this article helpful?
93 out of 132 found this helpful
Related articles
- このAI論文では、既知のカメラパラメータなしで新しい視点合成を行うために、COLMAP-Free 3D Gaussian Splatting(CF3DGS)を提案しています
- AIの物体認識をどのように進化させることができるのか? このAIの論文は、強化された画像と動画の分析のための普遍的な物体レベルの基礎モデルGLEEを紹介します
- 「このAI論文調査は、医学における大規模言語モデル(LLMs)の役割、課題、原則、応用について取り上げています」
- アップステージがSolar-10.7Bを発表:一回の会話用に深いアップスケーリングと微調整された精度を持つ先駆的な大規模言語モデルを実現
- このAI論文は、「パーシウス」という画期的なフレームワークを紹介していますこれにより、大規模な機械学習やAIモデルのトレーニング時のエネルギー浪費を最大30%削減することが可能です
- 「転移学習を探求しましょう…」(Ten’i gakushū o tankyū shimashou…)
- このAI論文では、ディープラーニングを通じて脳の設計図について探求します:神経科学とsnnTorch Pythonライブラリのチュートリアルから得た知見を活用してニューラルネットワークを進化させる