直感的にR2と調整済みR2のメトリックを探索する

R2と調整済みR2のメトリックを探索する

この記事では、R2と調整済みR2メトリックスがどのように動作するかを直感的に学ぶことができます。

Photo by Siora Photography on Unsplash

R2は、回帰型の機械学習タスクの評価メトリックとして広く使用されています。このメトリックは、ターゲットの特徴(従属特徴)の分散のどれだけが、機械学習モデル(モデルは独立した特徴の関数である)によって説明できるかを見つけます。

さて、ターゲットの特徴の分散を知って何の良いことがあるのか疑問に思うかもしれません。これに答えるためには、分散が情報の測定ツールとしてどのように認識できるかを知る必要があります。基本的に、あるものの分散が高ければ高いほど、そのものについての情報が多いということです。

この概念を理解するために、例を取りましょう。私たちは、3人の友人が顔を隠しているゲームをしているとしましょう。彼らが身長だけを基にして誰が誰かを認識する必要があります。もし3人の友人の身長の差(身長の分散)がかなり大きい場合、すべての友人を簡単に認識することができます。一方、友人たちの身長が同じくらいであれば、身長だけで彼らを認識するのはかなり難しいでしょう。この場合、体重などの他の基準を見る必要があります。

したがって、身長の差が大きい場合には3人の友人を簡単に認識することができました。この例は、分散が情報の測定ツールとして認識される方法を説明しています。

R2メトリック

R2は、トレーニングされたモデルとデータポイントの平均を常に出力するモデルとの比較です(黄色の線が緑色の線と比較してどれほど良いか)。

R2メトリックを求めるには、次の2つの値を知る必要があります:

  1. データの平均値(平均分散)を中心にしたターゲット特徴の分散(灰色の点の緑色の線に対する分散)。
  2. 最適な適合線(モデル分散)を中心にしたターゲット特徴の分散(灰色の点の黄色の線に対する分散)。

平均分散は、すべてのデータポイントのy座標の平均においてy軸を横切る水平線(図中の緑色の線)によって出力されるデータの平均を出力するモデルによって説明されるターゲット特徴の分散とも解釈できます。

モデル分散は、与えられたデータに対してトレーニングされたモデルによって説明されるターゲット特徴の分散とも考えることができます(図中の黄色の線)。

R2の解釈方法

R2の値は、モデルによって説明できるターゲット特徴の分散の割合を示します。分散が説明できる割合が高いほど、モデルが優れています。したがって、R2の値が1に近いほど、モデルは良好であり、値がに近いほど、モデルは悪いです。

例えば、モデルのR2値が0.85であるとします。この文は、トレーニングされたモデルがターゲット特徴の分散の85%を説明していることを意味します。

R2の可能な値

  1. R2は0から1の範囲で存在します(両端を含む)。時には負の値になることもあります。この負の場合は、トレーニングデータでモデルをトレーニングし、そのトレーニングされたモデルを新しいデータでテストする場合に発生します。これは、新しいデータの予測の分散が平均モデルの分散よりも小さくなるとは必ずしも限らないためです。トレーニングデータでトレーニングし、再びトレーニングデータでモデルをテストすると常に正のR2値が得られます。
  2. R2 = 0 => トレーニングされたモデルは平均モデルと同等です(非常にパフォーマンスが悪いモデル)
  3. R2の最大値は1です。

R2の問題

R2は、独立した特徴量をトレーニングデータに追加するたびに増加します。トレーニングデータに無駄な特徴量やランダムな特徴量を追加しても、この増加は起こります。これは、ランダムデータでもわずかな相関関係を見つけるのは非常に簡単だからです。しかし、このわずかな相関関係が私たちのモデルを過学習させる可能性があります。したがって、このようなわずかな相関関係によって増加しないパフォーマンス指標が必要です。この問題は、調整済みR2として知られる別のパフォーマンス指標を使用することで解決されます。

調整済みR2メトリック

調整済みR2の基本的なアイデアは、モデルに新しい特徴量を追加するたびにスコアを罰則化することです。

分母(n-m-1)は、mの値を増やすと減少します。したがって、R2の有意な増加が見られない場合、式全体の値は増加せず、減少する場合さえあります。

要するに、

R2値のわずかな増加(重要でない特徴量の追加による) => 調整済みR2はほぼ同じままであり、減少する場合さえあります

R2値の有意な増加(重要な特徴量の追加による) => 調整済みR2は大幅に増加します

アウトロ

この記事がお役に立てれば幸いです。VoAGIで私の他の記事も読んでください。

LinkedInで私についてもっと知る

ウェブサイトで私についてもっと知る

メール:[email protected]

参考文献:

「Hands-on Machine Learning with Scikit-Learn、Keras&TensorFlow」という書籍

ネガティブR二乗の説明。なぜ、いつR二乗がマイナスになるのか | 著者:Tan Nian Wei | Towards Data Science

視覚的に説明する主成分分析(PCA) | 著者:Casey Cheng | Towards Data Science

(1882) 回帰メトリック | MSE、MAE&RMSE | R2スコア&調整済みR2スコア — YouTube

(1882) R二乗、はっきり解説!!! — YouTube

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

AI研究

「MITの研究者が深層学習と物理学を使用して、動きによって損傷を受けたMRIスキャンを修正する」

MRI(磁気共鳴画像)スキャンは、大型磁石、電波、およびコンピュータを使用して体内の構造を明確に映し出すテストです。医療...

機械学習

「OceanBaseを使用して、ゼロからLangchainの代替を作成する」

「オーシャンベースとAIの統合からモデルのトレーニングやチャットボットの作成まで、興味深い旅を通じてこのトピックを探求...

人工知能

「Cassandra To-Doリスト ChatGPTプラグインの構築」

「Cassandraのステップバイステップガイド:ChatGPTプラグインを実装して、自分のやるべきことリストを管理するための仮想パ...

AIニュース

バーディーンChatGPTプラグインの使い方

この記事では、Bardeen ChatGPTプラグインを使って嫌な仕事を自動化する方法を紹介します

AIニュース

インドでのGoogle検索は今やAIによって動作しています | 使い方を学びましょう

Googleは、インド人と日本人が情報の広大な領域を探索する方法を再定義する画期的なイノベーションを発表しました。人工知能...

機械学習

「AIセキュリティへの6つのステップ」

ChatGPTの登場に伴い、すべての企業がAI戦略を考えようとしており、その作業にはすぐにセキュリティの問題が浮かび上がります...