Airbnbの研究者がChrononを開発:機械学習モデルの本番用機能を開発するためのフレームワーク

Airbnbの研究者がChrononを開発

機械学習の絶え間なく進化する風景において、特徴管理はAirbnbのMLエンジニアにとって重要な課題となっています。彼らはさまざまな製品のための革新的なモデルを作成することを目指していますが、モデルにすべての焦点を当てる代わりに、インフラの複雑さに時間を費やすことがしばしばあります。Airbnbは、特徴データの管理を効率化し、リアルタイムの更新を提供し、トレーニングと本番環境の整合性を確保する解決策の必要性を認識しました。

そこで登場するのがChrononです。Airbnbチームによって設計された強力なAPIで、これらの課題に対処することを目指しています。Chrononは、MLプラクティショナーが特徴を定義し、モデルのトレーニングと本番推論のためのデータ計算を一元化することを可能にし、プロセス全体での正確性と一貫性を保証します。

さまざまなソースからのデータの取り込み

Chrononは、イベントストリーム、データウェアハウスの事実/寸法テーブル、テーブルのスナップショット、変更データストリームなど、さまざまなソースからデータを取り込むことができます。リアルタイムのイベントデータや履歴のスナップショットなど、Chrononはすべてのデータをシームレスに処理します。

柔軟性を持ってデータを変換する

ChrononのSQLのような変換と時間ベースの集計により、MLプラクティショナーは簡単にデータを処理することができます。標準の集計や高度なウィンドウ処理技術など、ChrononのPython APIは、複雑な計算を実行する能力をユーザーに与えながら、完全な柔軟性と組み合わせ性を保証します。

オンラインおよびオフラインの結果生成

Chrononは、オンラインおよびオフラインのデータ生成の要件の両方に対応しています。Chrononは、特徴データを提供する低レイテンシのエンドポイントやトレーニングデータのためのHiveテーブルなど、さまざまなユースケースに適した「Accuracy」パラメータを提供します。これにより、リアルタイムの更新からデイリーのリフレッシュまで、幅広い用途に対応できます。

正確性とデータソースの理解

Chrononの正確性へのユニークなアプローチにより、派生データの望ましい更新頻度を表現することができます。ほぼリアルタイムまたはデイリーの間隔であるかどうかに関係なく、Chrononの「Temporal」または「Snapshot」の正確性モデルは、各ユースケースの特定の要件に合わせて計算が整合することを保証します。

データソースはChrononエコシステムの重要なコンポーネントです。Chrononは、次の3つの主要なデータ取り込みパターンをサポートしています:

  • タイムスタンプ付きアクティビティのためのイベントデータソース
  • ビジネスエンティティに関連する属性メタデータのためのエンティティデータソース
  • 遅変化次元での履歴的な変更を追跡するための累積イベントソース

計算コンテキストとタイプ

Chrononは、オンラインとオフラインの2つの異なるコンテキストで動作します。オンラインの計算は低レイテンシのアプリケーションに提供され、オフラインの計算はバッチジョブを使用してデータウェアハウスのデータセットで実行されます。すべてのChrononの定義は、集計のためのGroupBy、さまざまなGroupBy計算からのデータの組み合わせのためのJoin、およびカスタムのSpark SQL計算のためのStagingQueryの3つのカテゴリに分類されます。

強力な洞察を得るための集計の理解

ChrononのGroupBy集計は、従来のSQLのgroup-by機能にさまざまな拡張機能を提供します。ユーザーは、時間に基づいた集計のためのウィンドウ、追加の粒度のバケット、および配列内のネストデータを処理するための自動展開を活用することができます。さらに、時間ベースの集計は、MLモデルのための洞察に富んだ特徴を作成するためのさらなる柔軟性を提供します。

AirbnbのMLプラクティショナーにとってのシームレスな統合

Chrononは、AirbnbのMLプラクティショナーにとって画期的な変革をもたらしました。Chrononは、特徴エンジニアリングを簡素化することで、MLモデルのパワーを引き出すために数千もの特徴を生成することができるようにユーザーに提供します。この革命的なソリューションにより、MLエンジニアは手動のパイプラインの実装の負担から解放され、常に変化するユーザーの行動と製品の需要に対応する革新的なモデルの構築に集中することができます。

まとめると、ChrononはAirbnbの機械学習の武器庫に欠かせないツールとなりました。包括的な特徴管理ソリューションを提供することで、特徴エンジニアリングの生産性と拡張性を引き上げ、MLプラクティショナーによる最先端のモデルの提供と数百万人のユーザーのAirbnb体験の向上を実現しています。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

機械学習

宇宙における私たちの位置を理解する

マーティン・ルーサー・キングJr.奨学生であるブライアン・ノードは、機械を訓練して宇宙を探索し、研究における公正を求めて...

データサイエンス

「カオスから秩序へ:データクラスタリングを活用した意思決定の向上」

「オンラインストアは、購買パターン、購入日、年齢、収入などの要素に基づいて顧客をクラスタリングするために、この方法を...

AIテクノロジー

ヨーロッパのAI最大手MISTRAL AIが3億8500万ユーロを調達

技術のダイナミックな世界では、人工知能(AI)が産業を再構築している中、フランスのスタートアップ企業であるMistral AIが...

データサイエンス

オフポリシーモンテカルロ制御を用いた強化学習レーストラックの演習問題の解決

『「強化学習入門 第2版」の「オフポリシーモンテカルロ制御」セクション(112ページ)では、著者が興味深い演習を残してくれ...

機械学習

コンテンツクリエーターに必要不可欠なChatGPTプラグイン

「CodeGenius、StoryWeaver、およびFactFinderなどの必須のChatGPTプラグインを見つけて、コンテンツ作成プロセスを向上させ...

データサイエンス

「新時代のAI/MLのためのソフトウェア/ハードウェアアーキテクチャをどのように共同設計するか?」

最新の生成AI技術は、コンピュータビジョン、自然言語処理などで爆発的な成長を遂げ、画期的なモデルアーキテクチャの研究に...