データオブザーバビリティの先駆け:データ、コード、インフラストラクチャ、AI

Data Observability Pioneer Data, Code, Infrastructure, AI

データオブザーバビリティの4つの次元:データ、コード、インフラストラクチャ、AI。著者提供の画像。

信頼性のあるデータシステムの設計についての過去、現在、未来を概説します。

2019年に「データオブザーバビリティ」のカテゴリを立ち上げたとき、その言葉はほとんど発音できませんでした。

4年後、このカテゴリは現代のデータスタックの中核として確立されました。データオブザーバビリティはG2のカテゴリであり、GartnerやForresterなどによって認識されており、さらに世界の最先端のデータ組織を含む数百の企業に広く採用されています。

実際、急成長中の企業のCTOは最近私に言いました。「これは世俗的な傾向です。世界が変わっているため、データオブザーバビリティは遅かれ早かれ起こることであり、誰もそれを止めることはできません。」

私はまだいつも発音できないことがありますが、データオブザーバビリティは現代のデータチームにとって必須のものとなり、この運動がどれほど進歩しているか、そして今後どこに向かっているかに誇りを感じています。

では、データの信頼性の未来には何が待っているのでしょうか?進む方向を理解するために、まずは過去にどれだけ進んできたかを振り返ってみることが役立ちます。

始まり

2010年代中頃、データチームはクラウドに移行し、データストレージとコンピューティング技術(Redshift、Snowflake、Databricks、GCPなど)を採用し始めました。これにより、分析の需要が高まる中、データの処理がより高速化し、変換が容易になり、アクセスが容易になりました。

データがより普及するにつれて、パイプラインはより複雑になり、新たな人物(データエンジニアなど)がこの混沌を管理するために登場し、可能なユースケースの数も急増しました。

利点は何でしょうか?より情報のある意思決定、より多様なデータの利用、よりスマートなソフトウェアです。

欠点は何でしょうか?データ品質などの基本的な部分が軽視され、この現代のデータスタックのより輝かしい部分に取って代わられました。

以前の人生で、私は悪いデータの影響を直接目の当たりにしました。「データが間違って見える」という理由で午前5時にCFOからのピンクを受け取ったり、ダッシュボードが更新されない場合にステークホルダーからのメモをコンピューターモニターに貼り付けたり、不正確なデータが製品に供給されているために頭を抱えるイライラした顧客がいたりしました。

データオブザーバビリティはこの痛みから生まれ、具体的な解決策を提供しました。アプリケーションの可観測性とサイトの信頼性エンジニアリングに触発され、データオブザーバビリティはビジネスに影響を及ぼす前に、データのインシデントを監視し、アラートを発信します。データオブザーバビリティは自動化されたプロセス駆動型のデータ信頼性の実現において、コストを削減し、成長を促進し、午前5時の火消しを大幅に減らす代替手段を提供しました。

歴史的に、最も強力なデータオブザーバビリティの手法は、検出解決、および予防の3つの主要な段階を組み入れています。

  1. 検出:データオブザーバビリティはデータの異常やその他の問題を検出し、関連するデータチームの担当者にステークホルダーよりも前にアラートを送ります。
  2. 解決:同時に、データオブザーバビリティプラットフォームは、フィールドレベルの系譜、自動化されたルートコーズ分析と影響分析、そのアセットに影響を与えた過去のインシデントに関する情報、関連するクエリログとdbtモデル、影響を受けるレポートなど、問題の解決に必要なツールをチームに提供します。
  3. 予防:最後に、データオブザーバビリティは、パイプラインにサーキットブレーキを設置したり、コードの変更がデータに与える影響についての可視化など、最初からデータの問題を予防するメカニズムも提供します。

最初は、データオブザーバビリティはメタデータとデータ自体を活用してデータの健全性の全体像を組み立てることにより、データの問題の検出、解決、予防に焦点を当てていました。アップストリームのテーブルの変更が予想外だったため、ダウンストリームのソースが壊れたり信頼性が失われたりすることをチームは検出することができました。

データ以外の検出と解決の拡大

しかし、どの業界でも、データ領域は進化しており、インシデントの検出と解決、そしてデータの可観測性についてチームが考える必要があります。この進化はいくつかの興味深いトレンドによるものです:データ製品の台頭と、それに伴い、データチームがエンジニアリング組織に近づいたり、直接組み込まれることです。

データチームが組織内で範囲を広げ、データの使用例が増えるにつれて、データチームはこれまで以上にビジネスの成果に影響を与える存在となっています。実際、今ではビジネス全体が毎日データを活用して洞察を得たり、デジタルサービスを提供したり、機械学習モデルを訓練したりしています。実際、データを単なる製品のように扱うだけではなく、2023年にはデータ自体が製品となっています。

ペプシ、Gusto、MasterClass、Vimeoなどのチームを含む数百の顧客の経験から、データの信頼性を確保するためには、データ + コード + インフラストラクチャの3つの要素を考慮する必要があります。

このより広いビジョンは、ソフトウェアエンジニアリングの友人たちが検出と解決に取り組む方法とも一致しています。アプリケーションの可観測性はインフラストラクチャから始まりますが、ソフトウェアのダウンタイムを検出し解決するためには、コード、インフラストラクチャ、サービス、ネットワークなどさまざまな要素を分析する必要があります。ソフトウェアエンジニアにとって、信頼性は孤立して達成されるものではなく、しばしば複数の要素に影響を受け、相互に連動または組み合わさることがあります。

データでは、このシナリオはしばしば同じであり、それを同じように扱う時が来たのです。

データの世界から仮想的な例を見てみましょう。

ステールな結果が表示されるダッシュボードがあると想像してください。最初にデータを見ます。この場合、おそらくGoogleからインポートされた広告キャンペーンに関する上流テーブルがあります。キャンペーン名が変更され、ハードコードされたデータパイプラインが壊れたのでしょうか?それともクリックイベントのテーブルでユーザーのUUIDではなくヌル値が取得されているのでしょうか?ダメでしたか、次は何ですか?

コードを見ます。おそらくアナリティクスエンジニアがSQLを変更して最新のデータをフィルタリングするようにしたのでしょうか?良い意図があったかもしれませんが、意図しない結果が生じたかもしれません。dbtのリポジトリをのぞいてみます。いいえ、問題ありません。

最後に、インフラストラクチャを見ます。AirflowのUIにすばやく移動します。おそらく小さなインスタンスでAirflowを実行しており、メモリが不足しているため(あの行をメモリに読み込むべきではありませんでした!)、下流の更新の問題が発生しています。ユレカ、見つけました!

経験から学んだことは、データのダウンタイムにはこの3つの要素が意味を持って寄与するということです。ですから、最初にどこを見ても、教養に基づいた推測を行い、それを一つずつ排除するという長くて退屈なプロセスになるのです。あ、そして、データスタックを構成する8つの異なるツールにアクセスし、それらを使いこなす能力も必要です。

今、想像してみてください。表示される症状(ステールなダッシュボード…)とデータ、コード、インフラストラクチャに起因するすべての変更とを迅速に関連付けることができるとしたらどうでしょう。あ、そして、統計学の博士号や会社での10年間の経験、データウェアハウスのすべての列を知っている必要もありません。すべてが手の届くところにあります。データ、コード、インフラストラクチャがどのように連携して壊れたダッシュボードにつながったかについての全体像です。時間とリソースを節約し、利害関係者の不満を回避し、早朝の目覚まし時計を忘れることも考えてみてください。

データの可観測性には、データ、コード、およびインフラストラクチャの3つのレイヤーに対する洞察が必要です。画像は著者提供です。

データの可観測性の潜在能力を実現し、信頼性のあるデータを実現するには、データの健全性に影響を与えるデータ、コード、インフラストラクチャの総合的なイメージを織り込んだ三層的なアプローチが必要です。

また、データの信頼性を実現することは、単にツールを導入することではありませんということにも気づいています。それは、チーム内に新しいディシプリン(運用マインドセットとも言える)を作り出すことです。チームはデータシステムのモニタリング、インシデントへの対応、そして時間をかけて改善していくためのプロセスを導入する必要があります。

組織の構造、プロセス、技術は、それらの目標を達成するために進化する必要があります。例えば、透明性、協力、責任のために組織全体で簡単に共有できる、それらを駆動する上流のテーブルに基づいたデータ製品の信頼性を定義し監視するダッシュボード。さらに、ユースケースと所有者に基づいてデータとパイプラインをセグメント化し、的確なトライアジングとインシデントの解決を行うドメインがあります。

信頼性のあるデータとAIの未来

大規模言語モデル(LLM)を将来の[業界を挿入]として賭けることは、もはや陳腐と言えるほど一般的ですが、データ業界への影響は異なります。

データとエンジニアリングの現在の生成的AIのユースケースは、GitHub Co-Pilot、Snowflake Document AI、およびDatabricks LakehouseIQのような生産性のスケーリングにほぼ独占的に焦点を当てています。多くの面で、生成的AIの未来がどのようなものになるかはわかりませんが、データチームがその成功に大きな役割を果たすことは確かです。

LLMsがデータ品質の向上に役立つ可能性は非常に興味深いですが、さらに強力なテーゼは、データ品質と信頼性がLLMsにとって役立つことです。実際、生産ユースケースで利用されるLLMsは、堅牢な基盤なしでは存在できないと私は主張します。高品質で信頼性のあるデータがたくさんあることが必要です。

今日、ほとんどの生成的AIアプリケーションはクラウド上でホストされ、APIで公開されています。これらをサポートするには、信頼性のあるデータを保存、変換、トレーニング、提供するための堅牢なクラウドベースのデータスタックが必要です。

これについては、Snowflakeの2023年第1四半期の決算電話会議中、SnowflakeのCEOであるFrank Slootman氏が「生成的AIはデータで動作します。モデルがトレーニングされ、進化してより興味深く関連性のあるものになる方法です… 人々が品質、定義、起源について理解していないデータにこれらの[LLMs]を無制限に適用することはできません」と主張しました。

私たちはすでに信頼性の低いモデルトレーニングの影響を目の当たりにしています。昨年、グローバルな信用大手のエクイファックスは、悪いデータに基づいて訓練されたMLモデルが何百万人もの消費者に対して誤ったクレジットスコアを送信したことを公表しました。それからそれほど時間が経っていない間に、Unity Technologiesは、悪い広告データがターゲティングアルゴリズムを駆動することで1億1000万ドルの収益損失を報告しました。これから数年間、信頼性を優先しない限り、この問題はさらに大きな問題となるでしょう。

私たちが今後数年間で企業向けAIアプリケーションの台頭を目撃する中で、データの可観測性はLLMsやその他のAIユースケースをサポートするための重要な機能となります。

Databricksの共同創設者であるMatei Zaharia、Patrick Wendell、Reynold Xin、Ali Ghodsiは次のように提案しています。「エンタープライズアプリケーションには幻覚や不正確な応答に対する耐性がほとんどありません… 機械学習ライフサイクルのすべての段階で、データとモデルは共同で管理される必要があります。これは特に生成モデルにとって重要であり、品質と安全性は良いトレーニングデータに非常に依存しています。

私は完全に同意します。より良い、より影響力のあるAIへの第一歩は、良質で信頼性のあるデータ、そしてたくさんのデータです。

是非、ご参加ください。

ご意見、感情、思いをLinkedInでBarr Mosesに連絡してください。この領域はどこに向かっていると思いますか?

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more