SimPer：周期的なターゲットの簡単な自己教示学習

SimPer Simple Self-Supervised Learning for Periodic Targets

Googleのスタッフ研究者であるDaniel McDuffと学生研究者のYuzhe Yangによって投稿されました。

周期的なデータ（心拍や地球表面の日々の気温変化など、繰り返される信号）から学ぶことは、天候システムの監視から生体徴候の検出まで、多くの実世界のアプリケーションにとって重要です。例えば、環境遠隔検出の領域では、降水パターンや地表温度などの環境変化のナウキャスティングを可能にするために周期的な学習がしばしば必要です。健康領域では、ビデオ測定から学んだ結果、心房細動や睡眠時無呼吸などの（準）周期的な生体徴候を抽出することが示されています。

RepNetなどのアプローチは、これらのタスクの重要性を強調し、単一のビデオ内で繰り返されるアクティビティを認識する解決策を提供しています。ただし、これらは教師ありのアプローチであり、繰り返されるアクティビティを捉えるために大量のデータと、アクションが繰り返された回数を示すラベルが必要です。このようなデータのラベリングは、しばしば難しくリソースを消費するため、研究者は興味の対象のモダリティ（ビデオや衛星画像など）と同期したゴールドスタンダードの時間的計測を手動でキャプチャする必要があります。

代わりに、自己教師あり学習（SSL）の手法（SimCLRやMoCo v2など）は、周期的または準周期的な時間的ダイナミクスを捉える表現を学習するためにラベルの付いていない大量のデータを活用することで、分類タスクの解決に成功しています。しかし、これらの手法は、データの固有の周期性（つまり、フレームが周期的なプロセスの一部であるかどうかを識別する能力）を見落とし、周期的な属性や周波数属性を捉える堅牢な表現を学習することができません。これは、周期的な学習が一般的な学習タスクとは異なる特性を持つためです。

周期的表現の文脈での特徴の類似性は、静的な特徴（例えば画像）とは異なります。例えば、短い時間遅れでオフセットされたビデオや反転されたビデオは、元のサンプルと類似しているべきです。一方、ビデオのアップサンプリングやダウンサンプリングは、元のサンプルから因子xで異なるはずです。

これらの課題に対処するために、私たちは「SimPer: Simple Self-Supervised Learning of Periodic Targets」という論文で、データ内の周期的な情報を学習するための自己教師ありの対照的なフレームワークを紹介しました。具体的には、SimPerは周期性不変および周期性変動の拡張によって、同じ入力インスタンスから正例と負例のサンプルを取得することで、周期性のあるターゲットの時間的特性を活用します。周期的な特徴の類似性を提案し、周期的な学習の文脈で類似性を測定する方法を明示的に定義します。さらに、古典的なInfoNCE損失をソフト回帰バリアントに拡張した汎用の対照的な損失を設計し、連続したラベル（周波数）を対照することを可能にします。次に、SimPerが最新のSSL手法と比較して効果的に周期的な特徴表現を学習することを示し、データの効率性、誤った相関に対する堅牢性、分布のシフトに対する一般化能力など、その興味深い特性を強調します。最後に、私たちはSimPerのコードリポジトリを研究コミュニティと共有することを楽しみにしています。

SimPerフレームワーク

SimPerは、時間的な自己対照的学習フレームワークを導入します。正例と負例のサンプルは、周期性不変および周期性変動の拡張によって同じ入力インスタンスから取得されます。時間的なビデオの例では、周期性不変の変更にはトリミング、回転、反転があり、周期性変動の変更にはビデオの速度の増減が含まれます。

周期的な学習の文脈で類似性を測定する方法を明示的に定義するために、SimPerは周期的な特徴の類似性を提案します。この構成により、トレーニングを対照的な学習タスクとして定式化することができます。モデルはラベルのないデータでトレーニングされ、必要に応じて学習された特徴を特定の周波数値にマッピングするために微調整されることができます。

入力シーケンスxが与えられた場合、関連する周期的な信号が存在することがわかります。そして、xを変換して速度や周波数が変化したサンプルのシリーズを作成し、基になる周期的なターゲットを変更し、異なる負のビューを作成します。元の周波数は不明ですが、ラベルのない入力xに対して擬似的な速度や周波数のラベルを効果的に考案します。

従来の類似性尺度（例：コサイン類似度）は、2つの特徴ベクトル間の厳密な近接性を強調し、インデックスがシフトした特徴（異なるタイムスタンプを表す）、逆転した特徴、および周波数が変化した特徴に対して敏感です。一方、周期的な特徴類似性は、時間的なシフトが小さく、または逆転したインデックスがあるサンプルに対して高くなるべきであり、特徴の周波数が変化する際に連続的な類似性の変化を捉えるべきです。これは、フーリエ変換間の距離など、周波数領域の類似度尺度によって実現できます。

周波数領域で増強されたサンプルの固有の連続性を活用するために、SimPerは一般化された対照的損失を設計します。この損失は、古典的なInfoNCE損失をソフト回帰のバリアントに拡張し、連続的なラベル（周波数）に対して対比を可能にします。これにより、心拍などの連続信号を回復するという回帰タスクに適しています。

SimPerは、周波数領域でデータのネガティブビューを構築することによって、データの変換を行います。入力シーケンスxには、関連する周期的な信号があります。SimPerは、xを変換して速度や周波数が変化したサンプルのシリーズを作成します。これにより、基礎となる周期的なターゲットが変わり、異なるネガティブビューが作成されます。元の周波数は不明ですが、未ラベルの入力xに対して疑似的な速度や周波数ラベル（周期性変数の増強τ）を効果的に設計します。SimPerは、入力の識別を変更しない変換を取り、これらを周期性に関して不変な増強σと定義し、サンプルの異なるポジティブビューを作成します。そして、これらの増強ビューをエンコーダfに送り、対応する特徴を抽出します。

結果

SimPerの性能を評価するために、人間の行動分析、環境リモートセンシング、および医療の共通の実世界タスクに対して、SimPerを最新のSSLスキーム（例：SimCLR、MoCo v2、BYOL、CVRL）とベンチマークしました。具体的には、心拍数の測定と動画からの運動の繰り返しカウントに関する結果を以下に示します。結果は、SimPerが全ての6つのデータセットで最新のSSLスキームを上回り、データの効率性、偽の相関への耐性、および未知のターゲットへの汎化性能において優れた性能を発揮することを示しています。

以下では、さまざまなSSLメソッドを使用して事前トレーニングされ、ラベル付きデータで微調整されたSimPerの2つの代表的なデータセットにおける定量的な結果を示します。まず、人間の光電プレトシスモグラフィ（UBFC）データセットを使用してSimPerを事前トレーニングし、最新のSSLメソッドとの性能を比較します。SimPerは、SimCLR、MoCo v2、BYOL、CVRLメソッドを上回ることが観察されます。人間のアクションカウントデータセットであるCountixの結果は、SimPerの他のメソッドに対する利点をさらに確認し、監視されたベースラインを大幅に上回ります。特徴評価結果や他のデータセットでのパフォーマンスについては、論文を参照してください。

UBFCおよびCountixデータセットにおけるSimCLR、MoCo v2、BYOL、CVRL、およびSimPerの結果。心拍数と繰り返しカウントのパフォーマンスは平均絶対誤差（MAE）として報告されています。

結論と応用

私たちは、データ内の周期情報を学習するための自己教師あり対比フレームワークであるSimPerを提案します。時間的な自己対比学習フレームワークと、周期に対して不変な増強および周期に対して変動する増強、そして連続的な周期特徴類似性を組み合わせることにより、SimPerは周期信号の強力な特徴表現を学習する直感的かつ柔軟なアプローチを提供します。さらに、SimPerは環境遠隔センシングから医療まで、さまざまな分野に適用することができます。

謝辞

この研究に対するYuzhe Yang、Xin Liu、Ming-Zher Poh、Jiang Wu、Silviu Borac、およびDina Katabiの貢献に感謝します。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

HealthMachine learningSelf-Supervised Learning

Was this article helpful?

93 out of 132 found this helpful

SimPer：周期的なターゲットの簡単な自己教示学習

SimPerフレームワーク

結果

結論と応用

謝辞

Was this article helpful?

「アメリカでの顔認識技術は、最大の試練のひとつに直面する」

「Amazon SageMakerを使用して、効率的にカスタムアンサンブルをトレーニング、チューニング、デプロイする」

機械学習

カートゥーンキャラクターの中間プロンプト

焼け落ちた炎：スタートアップが生成AI、コンピュータビジョンを融合して山火事と戦う

AI、デジタルツインが次世代の気候研究イノベーションを解き放つ

モジラのコモンボイスでの音声言語認識 — Part I.

高リスクの女性における前がん変化の予測マンモグラフィに基づくディープラーニング手法の突破

HuggingFaceはTextEnvironmentsを紹介します：機械学習モデルと、モデルが特定のタスクを解決するために呼び出すことができる一連のツール（Python関数）の間のオーケストレーターです