「高い基数を持つカテゴリカルな特徴をエンコードするための4つの方法 — Pythonでの実装」となります

4 methods for encoding categorical features with high cardinality - Python implementation

scikit-learnとTensorFlowを使用してターゲットエンコーディング、カウントエンコーディング、特徴ハッシング、および埋め込みを適用する方法を学ぶ

“Click” — Photo by Cleo Vermij on Unsplash

本記事では、高基数のカテゴリカル変数をエンコードするための4つの人気のある方法、つまり(1) ターゲットエンコーディング、(2) カウントエンコーディング、(3) 特徴ハッシング、および(4) 埋め込みについて説明します。

それぞれの方法の動作原理、利点と欠点、および分類タスクのパフォーマンスへの影響について説明します。

目次

— カテゴリカル特徴の紹介 (1) なぜカテゴリカル特徴をエンコードする必要があるのか? (2) ワンホットエンコーディングは高基数に適していない理由 — AdTechデータセットへの適用 — 各エンコーディング方法の概要 (1) ターゲットエンコーディング (2) カウントエンコーディング (3) 特徴ハッシング (4) 埋め込み — CTR予測のパフォーマンスの比較 — 結論 — 更なる学習のために

カテゴリカル特徴の紹介

カテゴリカル特徴は、カテゴリまたはグループ(例:性別、色、国)を説明する変数の一種です。これに対し、数値特徴は数量を測定する変数です(例:年齢、身長、温度)。

カテゴリデータには、順序特徴(Tシャツのサイズやレストランの評価など、カテゴリをランク付けおよびソートできるもの)と名義特徴(人の名前、都市の名前など、意味のある順序を示さないカテゴリ)の2つのタイプがあります。

なぜカテゴリカル特徴をエンコードする必要があるのか?

カテゴリカル変数のエンコードとは、カテゴリを数値に変換するマッピングを見つけることを意味します。

一部のアルゴリズムはカテゴリカルデータを直接扱うことができますが(決定木など)、ほとんどの機械学習モデルはカテゴリカル特徴を処理できず、数値特徴として扱うことを前提として設計されています

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

人工知能

ジョシュ・フィースト、CogitoのCEO兼共同創業者 - インタビューシリーズ

ジョシュ・フィーストは、CogitoのCEO兼共同創業者であり、感情と会話AIを組み合わせた革新的なプラットフォームを提供するエ...

人工知能

「Kognitosの創設者兼CEO、ビニー・ギル- インタビューシリーズ」

ビニー・ギルは、複数の役職と企業を横断する多様で幅広い業務経験を持っていますビニーは現在、Kognitosの創設者兼CEOであり...

機械学習

「機械学習 vs AI vs ディープラーニング vs ニューラルネットワーク:違いは何ですか?」

テクノロジーの急速な進化は、ビジネスが効率化のために洗練されたアルゴリズムにますます頼ることで、私たちの日常生活を形...

データサイエンス

「David Smith、TheVentureCityの最高データオフィサー- インタビューシリーズ」

デビッド・スミス(別名「デビッド・データ」)は、TheVentureCityのチーフデータオフィサーであり、ソフトウェア駆動型のス...

人工知能

アーティスの創設者兼CEO、ウィリアム・ウーによるインタビューシリーズ

ウィリアム・ウーは、Artisseの創設者兼CEOであり、ユーザーの好みに基づいて写真を精密に変更する技術を提供していますそれ...

人工知能

「パクストンAIの共同創業者兼CEO、タングイ・シャウ - インタビューシリーズ」

タングイ・ショウは、Paxton AIの共同創設者兼CEOであり、法的研究と起草の負担を軽減するためにGenerative AIを使用するプラ...