「知っておくべき2つの興味深いPandasデータ操作関数」

2つの興味深いPandasデータ操作関数

データサイエンス

連続した pandas の列をカテゴリカルなものに変換するために非常に便利な pandas 関数

Brendan Church による写真

Python の pandas は、データ分析に広く使われる強力なライブラリです。

200以上の関数とメソッドが用意されており、データの操作や変換が容易に行えます。しかし、実際の作業でこれらの関数をすべて知り、必要な場所で使用することは容易な作業ではありません。

データ操作の一般的なタスクの1つは、連続的な数値値を持つ列を、離散的またはカテゴリカルな値を含む列に変換することです。そして、pandas には、数分間節約できる2つの驚くべき組み込み関数があります。

このようなデータ変換は、データをグループ化したり、離散的なグループごとにデータを分析したり、ヒストグラムを使用してデータを可視化するなど、さまざまなアプリケーションで使用できます。

例えば、

最近、複数のブランドの市場集中度を理解するためにヘルフィンダール・ヒルシュマン指数(HHI)を計算しました。したがって、pandas の DataFrame では、すべてのブランドの HHI の連続した値を持つ列がありました。最終的に、この列を離散値に変換して、各ブランドを低い、VoAGI、高い市場集中度に分類したかったのです。それがこの記事に触発された理由です。

これらの組み込みの pandas 関数を知らない場合、同じ作業を行うために複数の if-else 文や for 文を書く必要があるかもしれません。

したがって、ここでは、興味深い例(私のプロジェクトを含む)とともに、これら2つの超便利な組み込みの pandas 関数を紹介します。これにより、データ分析がスーパーチャージされ、数分間節約できます。

分析プロジェクトでは、しばしば連続した値を持つ列を別の離散値を持つ列に変換する必要があります。

基本的には、連続データをいくつかのカテゴリに分類し、つまりバケットやビンにすることです。そして、それは、各ビンの最小値と最大値を指定すること、つまりビンのエッジを定義すること、またはビンの数を指定することによって行うことができます。

連続的なシリーズを離散的なものに分割する目的に応じて、以下のようにすることができます。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more