データサイエンスの成功への道は、学習能力にかかっていますしかし、何を学ぶべきでしょうか?

データサイエンスの成功への道は、学習能力にかかっていますでは、何を学ぶべきでしょうか?

データサイエンスプロジェクトを成功裏に進める可能性は、学び続けることが最も重要ですが、何に焦点を当てるべきかは常に明確ではありません

Tamara Menzi氏撮影、Unsplashより

過去10年間にはデータサイエンスの分野で多くの進歩がありましたが、これらの成果にもかかわらず、多くのプロジェクトは日の目を見ることはありません。私たちデータサイエンティストは、強力な技術力だけでなく、ビジネスの文脈を理解し、ステークホルダーと効果的にコミュニケーションを取り、彼らの質問を具体的なアクションに翻訳し、ビジネス価値を生み出す実行可能な提案を行う必要があります。これは合理的な要求であり、ビジネスは新しいユニコーンを探しているのでしょうか?このブログでは、年々変化しているビジネスの変化について説明し、データサイエンスプロジェクトを成功裏に進めるために学ぶ必要があることについてより良い視点を提供します。

簡単な紹介

10年以上前、企業はデータセットの採掘が収益の増加、プロセスの最適化、および(生産)コストの低減につながる情報をもたらすことに気付きました。これにより、データサイエンスという新しい領域が生まれ、データサイエンティストという新しい役割が生まれました。しかし、ビジネスのニーズは年々変化しています。したがって、データサイエンティストとして何を学ぶ必要があるのかを知るために、ビジネスのニーズを理解することが重要です。次のセクションでは、過去10年間にデータサイエンスの分野がどのように進化したかを説明します。これにより、1.学ぶべき重要なこと、2.現在学ぶべき重要なこと、3.将来の取り組みに重要になる可能性があることを知ることができます。次のセクションで時間を巻き戻しましょう。

最初に、科学的なプログラマーがいました。

データサイエンスには、統計学と数学に基づく多くの学問があります。これらは数十年の(学術的な)研究開発から生まれたものです。元々のコアアルゴリズムの多くは、テキストマイニング、画像認識、センシング、および時系列などの学問の基盤となっています。初期の頃、これらの手法はコードと一緒に公開されていませんでした。手法を適用するために、企業は科学的なプログラマーを雇い、手法の実装という難しく時間のかかる作業を行っていました。しかし、コードを書く前に、なぜその努力を行うべきか、どのような結果が期待できるかを考えるプロセスが通常ありました。しかし過去10年間で、Google、Metaなどの企業がライブラリをオープンソース化し始めたため、これは劇的に変化しました。さらに、sklearn、scipyなどのオープンソースパッケージの開発もコミュニティによって開始されました。インストールは今やたった1行のコードです。

データサイエンスの分野は急速に進化していますが、ビジネスのニーズは何を求めているのでしょうか?

今日では、科学的なプログラマーデータサイエンティストになりました。ただし、何かが変わりました。ビジネスは、ステークホルダーと効果的にコミュニケーションを取り、ビジネスの機会を特定し、技術的な洞察を具体的なアクションに翻訳し、ビジネス価値を生み出すことができるデータサイエンティストも必要としています。これにより、新しいタイプのデータサイエンティスト、つまり応用データサイエンティストが生まれました。

応用データサイエンティストと基礎データサイエンティスト

「データサイエンティスト」という言葉は、データサイエンスの分野におけるさまざまな役割の総称としてよく使われています。データスチュワード、MLエンジニア、データエンジニア、統計学者などが含まれます。しかし、本当のデータサイエンティストについて話すときは、基本的に2つのタイプがあります。それは、基礎データサイエンティストと応用データサイエンティストです。

  • 基礎データサイエンティストは、複雑なデータセットを分析し、洞察を導き出すための統計的および機械学習の技術について強い知識を持っています。この人物は基礎となるデータの分布についてすべてを説明でき、問題を解決するためのアルゴリズム/手法の作成(変更)も容易です。これらの人々は通常、研究開発環境や学術機関で活躍します。
  • 応用データサイエンティストは、既存の技術や手法を特定のビジネスの問題を解決するために適用したり、データ駆動型の製品やサービスを開発したりすることに重点を置いています。通常、これらの役割はテキストマイニング、画像認識、センシング、時系列などの特定の領域で活躍します。イノベーションは通常、関連するデータに新しい手法を適用することによって達成されますが、新しいアルゴリズムや手法を作成することではありません。

両方の役割にはそれぞれ強みと弱点があります。以下に、データサイエンスプロジェクトを成功裏に進めるための3つのヒントを紹介します。

ヒント1: プログラミングの基礎を学ぶ

Coursera、Udemy、Youtube、VoAGIなどの優れたプラットフォームのおかげで、プログラミングの基礎を学ぶための資料が豊富にあります。

  • PEP8など既知のスタイルでコードを書く。
  • インラインコメントを書く。何をするのか、なぜそれをするのか。
  • ドキュメント文字列を書く。
  • 分かりやすい変数名を使う。
  • コードの複雑さを低く保つ(大幅に)。
  • ユニットテストを書く。
  • ドキュメンテーションを書く。
  • クリーンに保つ。

プログラミングはデータサイエンス分野での主要な課題の1つです。それは非常に過小評価されていますが、データサイエンスプロジェクトを本番環境に導くためには、ドキュメンテーションやユニットテストを備えたスパゲッティスタイルのプログラミングコードをメンテナンスする必要があります。モデルやプログラミングコードをメンテナンスする際に、ドキュメント化されず、ユニットテストも行われず、スパゲッティスタイルで書かれたコードを維持したいと思いますか?私はそうは思いません。

各データサイエンスプロジェクトには再現可能なコードが必要であり、本番環境への移行には保守可能なコードが必要です。結局のところ、各プロジェクトはただのコードの塊であり、それを本番環境に展開する必要があります。クリーンに保ちましょう。整理された状態を保ちましょう。

ヒント2: プロジェクトの成功は単なる機械学習ソリューションだけではありません

データサイエンスプロジェクトは通常、多くの意気込みで始まりますが、それはすぐに曖昧になることがあります。というのも、プロジェクトには機械学習ソリューション以外の要素が必要だからです。最近発表された記事[1]では、データサイエンスプロジェクトで最も重要な技術的な手順が非常によく説明されています。しかし、アイデアから本番環境に移行するためには、技術的なスキルだけでは足りません。プロジェクトの成功を高めるための手順の要約は次のとおりです。

  1. 最初から最後を考える。プロジェクトの開始時に、組織や企業内でプロジェクトをどこにどのように展開するかを把握しておく必要があります。データガバナンス、倫理、プライバシーは重要な要素です。
  2. どのプラットフォームやインフラで協力するかを確認する。たとえば、CI/CDパイプラインとクッキーカッターテンプレートを使用することがあります。
  3. ドメインを理解する。分析を行う前に、作業しているドメインに基本的な理解が必要です。データを扱う際には、それが属する分野やコンテキストに応じた方法を知る必要があります。一つのサイズが全てのデータサイエンスソリューションは存在しません。
  4. データ解析を正しく行う。これは些細なことのように思えるかもしれませんが、パッケージのpipインストールの方法を知っているだけでは専門家にはなれません。自分でリサーチをし、記事を読みましょう。説明できない(複雑な)機械学習ソリューションは避けましょう。トレイン・テスト・バリデーションセットを使用しましょう。結果をベースラインと比較しましょう。経験豊富な科学者やドメイン知識を持つ人々とアイデアや結果を議論しましょう。
  5. 結果を報告する。透明性を持って物語を伝えましょう。データを超えた物語を一般化しないでください。旅の説明こそがモデルから出た一つの数字よりも重要です。
  6. 再現性と保守可能なコードを書く。結果が再現可能であり、コードが保守可能であることを示しましょう。
  7. 結果を引き渡す。すべての手順が完了したら、結果や製品を顧客に引き渡す必要があります。自分のラップトップを動作するコードと一緒に渡すことは解決策ではありません。

これらの手順を注意深く見ると、データを分析しモデルを作成するステップ(#4)はたった1つだけであることがわかります。よく考えてみてください。

ヒント3: 知恵を絞り、学び、繰り返す

データサイエンスは高度に複雑で急速に進化する分野であり、さまざまな専門分野が融合しています。すべてのデータサイエンティストは異なるバックグラウンドを持ち、持続的な学習は不可欠な要素です。これは、学位/出発点、経験、ドメイン知識、数学、統計、プログラミング、エンジニアリング、コミュニケーション、プレゼンテーションスキルなどによって異なる個人の成長のための学習パスが大いに役立つことを意味します。自分自身が改善できる点を同僚と話し合い、何を学び、どのように学ぶかについての個人的なロードマップを作成しましょう。ただし、ランダムなデータサイエンスコースを受講することは興味深いかもしれませんが、会社のミッションや個人の成長パスと一致しない場合があります。

学ぶ能力は、誰もが練習し続けるべき筋肉です。生涯にわたって学び続けることは、おそらく自分自身への最高の贈り物でしょう。

学ぶべきことは常にあります。

成功への道は、ウェブ上の特定の単一のコースを行うことではありませんが、数年、おそらく数十年の専念、努力、苦労を必要とするかもしれません。自己投資し、基礎を学び、浅い知識を超え、専門化し、成功は全体のプロセスの中でモデリング部分はたった一つのステップに過ぎないことを認識してください。

これをサブパートに分解してみましょう。まず、コミュニケーションは非常に重要です。もしかしたら最も優れた方法を作ることができるかもしれませんが、複雑な技術的な概念を技術的なステークホルダーと非技術的なステークホルダーの両方に効果的に伝える必要があります。 問題解決:複雑な問題に構造化されたシステマティックな思考で取り組むことができるようになるべきです。批判的に考え、問題を多角的に分析し、効果的な解決策を提案します。Stack Overflowなどのウェブサイトでコミュニティの助けをすることで簡単に実践することができます。キャリアとシニアリティが成長するにつれて、開発者を指導およびコーチングすることができるようになるべきです。ガイダンスを提供し、ベストプラクティスを共有し、彼らの技術的なスキル向上に役立てます。 適応性を持ちましょう。自分が知っている一つの技術に固執するのではなく、新しい技術、方法論、ツールを取り入れましょう。迅速に学び、プロジェクトの要件や業界のトレンドの変化に適応できるようにする必要があります。 時間管理。時間を効果的に管理しましょう。タスクの優先順位をつけ、締め切りを守り、競合する要求をバランスさせましょう。品質の高い仕事を提供することに集中しましょう。

安全に。冷静でいましょう。

乾杯 E.

この記事が役に立つと思ったら、ぜひフォローしてください。ベイジアン因果学習についてもっと書いています。VoAGIのメンバーシップを考えている場合は、私の紹介リンクを使用して少し私の仕事をサポートすることができます。コーヒーと同じ値段ですが、月に無制限の記事を読むことができます。

つながりましょう!

  • LinkedInでつながりましょう
  • Githubでフォローしてください
  • VoAGIでフォローしてください

参考文献

  1. Michael A. Lones, How to avoid machine learning pitfalls: a guide for academic researchers, arXiv: 2108.02497
  2. Tessa Xie, Data Science career mistakes avoid , 2021,
  3. Is data scientist becoming an obsolete job ? Data Science Central

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more