「PolarsによるEDA:集計と分析関数のステップバイステップガイド(パート2)」

Polars EDA Step-by-Step Guide to Aggregation and Analysis Functions (Part 2)

ポラーズで超高速な集計と移動平均を行う

写真:Spencer Davis氏撮影、Unsplashより

はじめに

このシリーズの第1部では、ポラーズの基本をカバーし、その機能と構文をパンダスと比較しました。この記事では、クエリの複雑さを少し上げて、かなり複雑な集計、移動統計などをどのように実行するかを見ていきます。ポラーズに慣れていない場合や、復習が必要な場合は、前の記事を確認してください。それでは、ポラーズを探索しましょう!

セットアップ

前回と同様に、このGitHubリポジトリをクローン/プルしてください。この記事で必要なすべてのコードが含まれています。特に、このノートブックをカバーする予定ですので、一緒に進める場合は取得してください。

このプロジェクトで使用するデータはKaggleからダウンロードできます(CC0:パブリックドメイン)。ポラーズがすでにインストールされていることを前提としていますので、最新バージョンにアップデートするためにpip install -U polarsを実行してください。

データ処理

データの読み込み

前回の記事と同様に、UKのトレンドデータセットとcategory_id列のマッピングを読み込みます。

csv_path  = './youtube/GBvideos.csv'json_path = './youtube/US_category_id.json'df = pl.read_csv(csv_path)with open(json_path, 'r') as f:    categories = json.load(f)    id_to_category = {}for c in categories['items']:    id_to_category[int(c['id'])] = c['snippet']['title']

データのクリーニング

次に、日付を解析し、カテゴリIDをカテゴリ名にマッピングします。より本番向けにするために、日付解析コードを一般化可能な関数に入れます。

def parse_dates(df: pl.DataFrame, date_cols: Dict[str, str]) -> pl.DataFrame:    expressions = []    for date_col, format in date_cols.items():        expressions.append(pl.col(date_col).str.to_date(format=format))            df = df.with_columns(expressions)    return df# 期待される日付形式のカラム名date_column_format = {    "trending_date": '%y.%d.%m',    "publish_time"…

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

人工知能

「UVeyeの共同設立者兼CEO、アミール・ヘヴェルについてのインタビューシリーズ」

アミール・ヘヴァーは、UVeyeのCEO兼共同創設者であり、高速かつ正確な異常検出により、自動車およびセキュリティ産業に直面...

人工知能

「Zenの共同創設者兼CTO、イオン・アレクサンドル・セカラ氏によるインタビューシリーズ」

創業者兼CTOであるIon-Alexandru Secaraは、Zen(PostureHealth Inc.)の開発を牽引しており、画期的な姿勢矯正ソフトウェア...

データサイエンス

2023年にAmazonのデータサイエンティストになる方法は?

ほとんどのビジネスは現在、膨大な量のデータを生成し、編集し、管理しています。しかし、ほとんどのビジネスは、収集したデ...

人工知能

「ジャスティン・マクギル、Content at Scaleの創設者兼CEO - インタビューシリーズ」

ジャスティンは2008年以来、起業家、イノベーター、マーケターとして活動しています彼は15年以上にわたりSEOマーケティングを...

人工知能

「シフトのCEOであるクリス・ナーゲル – インタビューシリーズ」

クリスはSiftの最高経営責任者です彼は、Ping Identityを含むベンチャー支援および公開SaaS企業のシニアリーダーシップポジシ...

人工知能

「ナレ・ヴァンダニャン、Ntropyの共同創設者兼CEO- インタビューシリーズ」

Ntropyの共同創設者兼CEOであるナレ・ヴァンダニアンは、開発者が100ミリ秒未満で超人的な精度で金融取引を解析することを可...