直感的にR2と調整済みR2のメトリックを探索する

R2と調整済みR2のメトリックを探索する

この記事では、R2と調整済みR2メトリックスがどのように動作するかを直感的に学ぶことができます。

Photo by Siora Photography on Unsplash

R2は、回帰型の機械学習タスクの評価メトリックとして広く使用されています。このメトリックは、ターゲットの特徴(従属特徴)の分散のどれだけが、機械学習モデル(モデルは独立した特徴の関数である)によって説明できるかを見つけます。

さて、ターゲットの特徴の分散を知って何の良いことがあるのか疑問に思うかもしれません。これに答えるためには、分散が情報の測定ツールとしてどのように認識できるかを知る必要があります。基本的に、あるものの分散が高ければ高いほど、そのものについての情報が多いということです。

この概念を理解するために、例を取りましょう。私たちは、3人の友人が顔を隠しているゲームをしているとしましょう。彼らが身長だけを基にして誰が誰かを認識する必要があります。もし3人の友人の身長の差(身長の分散)がかなり大きい場合、すべての友人を簡単に認識することができます。一方、友人たちの身長が同じくらいであれば、身長だけで彼らを認識するのはかなり難しいでしょう。この場合、体重などの他の基準を見る必要があります。

したがって、身長の差が大きい場合には3人の友人を簡単に認識することができました。この例は、分散が情報の測定ツールとして認識される方法を説明しています。

R2メトリック

R2は、トレーニングされたモデルとデータポイントの平均を常に出力するモデルとの比較です(黄色の線が緑色の線と比較してどれほど良いか)。

R2メトリックを求めるには、次の2つの値を知る必要があります:

  1. データの平均値(平均分散)を中心にしたターゲット特徴の分散(灰色の点の緑色の線に対する分散)。
  2. 最適な適合線(モデル分散)を中心にしたターゲット特徴の分散(灰色の点の黄色の線に対する分散)。

平均分散は、すべてのデータポイントのy座標の平均においてy軸を横切る水平線(図中の緑色の線)によって出力されるデータの平均を出力するモデルによって説明されるターゲット特徴の分散とも解釈できます。

モデル分散は、与えられたデータに対してトレーニングされたモデルによって説明されるターゲット特徴の分散とも考えることができます(図中の黄色の線)。

R2の解釈方法

R2の値は、モデルによって説明できるターゲット特徴の分散の割合を示します。分散が説明できる割合が高いほど、モデルが優れています。したがって、R2の値が1に近いほど、モデルは良好であり、値がに近いほど、モデルは悪いです。

例えば、モデルのR2値が0.85であるとします。この文は、トレーニングされたモデルがターゲット特徴の分散の85%を説明していることを意味します。

R2の可能な値

  1. R2は0から1の範囲で存在します(両端を含む)。時には負の値になることもあります。この負の場合は、トレーニングデータでモデルをトレーニングし、そのトレーニングされたモデルを新しいデータでテストする場合に発生します。これは、新しいデータの予測の分散が平均モデルの分散よりも小さくなるとは必ずしも限らないためです。トレーニングデータでトレーニングし、再びトレーニングデータでモデルをテストすると常に正のR2値が得られます。
  2. R2 = 0 => トレーニングされたモデルは平均モデルと同等です(非常にパフォーマンスが悪いモデル)
  3. R2の最大値は1です。

R2の問題

R2は、独立した特徴量をトレーニングデータに追加するたびに増加します。トレーニングデータに無駄な特徴量やランダムな特徴量を追加しても、この増加は起こります。これは、ランダムデータでもわずかな相関関係を見つけるのは非常に簡単だからです。しかし、このわずかな相関関係が私たちのモデルを過学習させる可能性があります。したがって、このようなわずかな相関関係によって増加しないパフォーマンス指標が必要です。この問題は、調整済みR2として知られる別のパフォーマンス指標を使用することで解決されます。

調整済みR2メトリック

調整済みR2の基本的なアイデアは、モデルに新しい特徴量を追加するたびにスコアを罰則化することです。

分母(n-m-1)は、mの値を増やすと減少します。したがって、R2の有意な増加が見られない場合、式全体の値は増加せず、減少する場合さえあります。

要するに、

R2値のわずかな増加(重要でない特徴量の追加による) => 調整済みR2はほぼ同じままであり、減少する場合さえあります

R2値の有意な増加(重要な特徴量の追加による) => 調整済みR2は大幅に増加します

アウトロ

この記事がお役に立てれば幸いです。VoAGIで私の他の記事も読んでください。

LinkedInで私についてもっと知る

ウェブサイトで私についてもっと知る

メール:[email protected]

参考文献:

「Hands-on Machine Learning with Scikit-Learn、Keras&TensorFlow」という書籍

ネガティブR二乗の説明。なぜ、いつR二乗がマイナスになるのか | 著者:Tan Nian Wei | Towards Data Science

視覚的に説明する主成分分析(PCA) | 著者:Casey Cheng | Towards Data Science

(1882) 回帰メトリック | MSE、MAE&RMSE | R2スコア&調整済みR2スコア — YouTube

(1882) R二乗、はっきり解説!!! — YouTube

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

AIニュース

既存のLLMプロジェクトをLangChainを使用するように適応する

おめでとうございます!素晴らしいLLMの概念証明が完成しましたね自信を持って世界に披露できます!もしかしたら、OpenAIライ...

人工知能

あなたの時間を節約するための6つのGmail AI機能

これらの人工知能(AI)によるGmailの機能は、あなたの電子メールの体験をよりスピーディーで整理されたものにすることができ...

データサイエンス

「エンタープライズAIの処理のための表現能力を向上させる鍵は、RAG + ファインチューニングです以下にその理由を説明します」

「ジェネレーティブAIはほとんどのCEOの頭にありますが、そのエンタープライズへの適応方法は議論の余地がありますその成功の...

データサイエンス

「AIはデータガバナンスにどのように影響を与えているのか?」

ジェネレーティブAIは既にデータガバナンスの世界を揺るがし始めており、今後もその影響力は続く予定ですChatGPTのリリースか...

データサイエンス

「AIがインターネット・オブ・シングスの世界をどのように革新しているのか?」

AIソリューションを活用した高度なIoTは、私たちの世界を変えつつあり、私たちの生活のあらゆる領域に浸透していますAIとIoT...

AIニュース

AWSを使用したジェネレーティブAIを使用したサーバーレスイメージ生成アプリケーション

このチュートリアルでは、Amazon Bedrockを使用してGoで画像生成ソリューションを構築し、AWS CDKを使用して展開する方法を学...