何が合成データとは?その種類、機械学習とプライバシーにおける利用例及び応用について

What is synthetic data? Its types, examples and applications in machine learning and privacy.

データサイエンスと機械学習の分野は、毎日成長しています。新しいモデルやアルゴリズムが提案されるにつれて、これらの新しいアルゴリズムとモデルには、トレーニングやテストに膨大なデータが必要となります。ディープラーニングモデルは今日では非常に人気があり、これらのモデルもデータを大量に必要とします。異なる問題文脈の大量のデータを取得することは、非常に面倒で時間がかかり、コストがかかります。データは現実のシナリオから収集されるため、セキュリティの責任とプライバシーの懸念が高まります。データの大部分はプライバシー法や規制によって保護されており、組織間や場合によっては同一組織の異なる部門間でのデータ共有や移動を妨げ、実験や製品のテストを遅らせる原因となります。それでは、この問題をどのように解決できるでしょうか?どのようにして、誰かのプライバシーに関する懸念を引き起こすことなく、データをよりアクセスしやすくオープンにすることができるのでしょうか? 

この問題の解決策は、合成データ (Synthetic data)と呼ばれるものです。

では、合成データとは何でしょうか?

合成データとは、人工的またはアルゴリズム的に生成され、実際のデータの基本的な構造と特性に近いものです。合成データが良ければ、実際のデータと区別がつかないほどです。

合成データの種類は何種類あるのでしょうか?

この質問の答えは非常にオープンエンドで、データは多様な形をとることができますが、主に以下のようなものがあります。

  1. テキストデータ
  2. 音声またはビジュアルデータ (たとえば画像、動画、音声)
  3. 表形式のデータ

機械学習における合成データの利用例

ここでは、上記の3つのタイプの合成データの利用例について説明します。

  • NLPモデルのトレーニングに合成テキストデータを使用する

合成データは、自然言語処理の分野で応用されています。たとえば、AmazonのAlexa AIチームは、既存の顧客インタラクションデータが存在しない場合や十分でない場合に、NLUシステム (自然言語理解) のトレーニングセットを完成させるために合成データを使用しています。

  • ビジョンアルゴリズムのトレーニングに合成データを使用する

ここでは、広く使用されているユースケースについて説明します。たとえば、画像内の顔の数を検出または数えるアルゴリズムを開発したい場合を考えてみましょう。ジェネレーティブネットワーク (GAN) またはその他の生成ネットワークを使用して、実際には存在しない現実的な人間の顔、つまり顔を生成してモデルをトレーニングすることができます。また、誰かのプライバシーを侵害することなく、これらのアルゴリズムから必要なだけデータを生成することができます。しかし、実際のデータには個人の顔が含まれているため、プライバシーポリシーによってそのデータを使用することが制限されています。

別のユースケースとして、シミュレートされた環境で強化学習を行うことが考えられます。たとえば、オブジェクトをつかんで箱に入れるために設計されたロボットアームをテストしたい場合、この目的のために強化学習アルゴリズムが設計されます。強化学習アルゴリズムが学習する方法は、実験を行うことです。実際のシナリオで実験を行うことは非常にコストがかかり、時間がかかり、異なる実験を行うことが制限されます。しかし、シミュレートされた環境で実験を行う場合、実験を設定するのは比較的安価で、ロボットアームのプロトタイプが必要なくなります。

  • 表形式のデータの利用例

合成表形式のデータは、テーブルに保存された実世界のデータを模倣した人工的に生成されたデータです。このデータは行と列に構造化されています。これらのテーブルには、音楽プレイリストのように、各楽曲についての情報 (楽曲名、歌手、長さ、ジャンルなど) が含まれることがあります。また、銀行取引や株価などの財務記録である場合もあります。

銀行取引に関連する合成表形式のデータは、不正取引を検出するためのモデルとアルゴリズムのトレーニングに使用されます。過去の株価データを使用して、株価の将来的な予測のためのモデルをトレーニングおよびテストすることもできます。

機械学習で合成データを使用する最大の利点の1つは、開発者がデータを制御できることです。開発者は、必要に応じてデータを変更して、アイデアをテストし、実験できます。同時に、開発者は合成データでモデルをテストすることができ、モデルが実際のデータ上でどのように動作するかを非常に明確に理解することができます。開発者がモデルを試して、実際のデータを待つ必要がある場合、データの取得には数週間または数か月かかることがあります。したがって、開発と技術革新の遅延を引き起こす可能性があります。

今、私たちは合成データがデータプライバシーに関連する問題を解決するのにどのように役立つかについて議論する準備ができました。

多くの産業は、顧客が生成したデータに依存して革新と開発を行っていますが、そのデータには個人を特定できる情報(PII)が含まれており、プライバシー法がそのようなデータの処理を厳格に規制しています。たとえば、一般データ保護規則(GDPR)では、組織がデータを収集したときに明示的に同意されなかった使用を禁止しています。合成データは、実際のデータの基礎構造に非常に近く、同時に、実際のデータに存在する個人が合成データから再識別されないことを保証するため、処理と共有にははるかに少ない規制があります。その結果、合成データの処理と共有にははるかに少ない規制があり、より速い開発と革新、そしてデータへの簡単なアクセスが実現されます。

結論

合成データには多くの重要な利点があります。それにより、ML開発者は実験を制御でき、データがよりアクセス可能になるため、開発速度が向上します。データが自由に共有可能であるため、より大規模なスケールでの協力を促進します。さらに、合成データは、実際のデータから個人のプライバシーを保護することを保証します。

2022年の機械学習モデルのトップ合成データツール/スタートアップ

この記事は、MarkTechPostに掲載されている「合成データとは?タイプ、使用例、機械学習とプライバシーのためのアプリケーション」という記事の翻訳です。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more