データ駆動型の世界で理解すべき重要な統計的アイデア4つ

'データ駆動型の世界での重要な統計的アイデア4つ'

現代の世界を航海するために統計の専門家である必要はありませんが、以下は理解しておくべき基本的な考え方です。

現実を避けても意味がありません。データサイエンス、そしてより広範な意味でのデータ駆動型の構造は、私たちが現在構築している社会の中心にあります。

コンピュータサイエンスのブームが初めて訪れた2000年代初頭、多くの人々はコンピュータサイエンスがすべての分野の重要な一部になるだろうと指摘しました。これは事実となりました。医療、エンジニアリング、金融など、さまざまな業界の企業はソフトウェアエンジニアを様々な形で雇うようになりました。それらの分野の学生たちはコーディングの方法を学び始めました。

私は新しいデータサイエンスの急増がこれをさらに進めていると主張します。コンピュータサイエンスでは、ソフトウェアエンジニアを雇うだけで済ませることができました。ビジネスマネージャーや営業の専門家は、これらの人々が何をしているのかを理解する必要はありませんでした。

しかし、データサイエンスはより広範で包括的です。異なる分野の組み合わせであるため[1]、その考え方は日常のデータサイエンティストでない人々にも関連しています。

この記事では、公式の職名に関係なく、誰もが理解すべき重要な統計的な考え方の概要を説明します。プロジェクトマネージャー、採用担当者、さらにはCEOであっても、これらの概念にある程度の習熟度を持つことは、仕事で役立つことでしょう。また、仕事の文脈を超えて、これらの概念に精通することは、現代社会を航海するために不可欠なデータリテラシーの感覚を与えてくれます。

それでは始めましょう。

ただの大きな、悪いサンプル

大学生の頃、私が受けた最初のデータサイエンスの授業は、非常に多くの学生（約2000人）で構成されていました。Foundations of Data Scienceというコースは、学部間の学生にもアクセスしやすいように設計されたため、キャンパス内で最も人気のある授業の一つでした。高度な数学やプログラミングにすぐに取り組むのではなく、様々な分野の学生に影響を与える高レベルのアイデアに焦点を当てました。

初期の講義の1つで、教授は私に長年忘れられることになる発言をしました。それは、ランダムサンプリングに関連する広範な用語であり、研究対象の集団の部分集合を選ぶ方法に関わるものです。そのアイデアは、その部分集合の研究によって、全体の集団についての結論を導くことができるというものです。

彼女は、良いサンプルを持つことが最も重要であることを指摘しました。なぜなら、数学的な手法や高度なテクニックをどれだけ使っても、実際には集団を模倣したいと思うような代表的なサンプルではないと、いくら頑張っても解決策にならないからです。彼女は、多くの人々が、出発時のサンプルが悪い場合、合理的な解決策は同じアプローチを続けることで、より大きなサンプルを収集することだと考えていると指摘しました。

「それでは、あなたはただの非常に大きな、非常に悪いサンプルを持つことになります」と、大学生でいっぱいの講堂に言いました。

この基礎的なポイントと、それに伴う広範な影響を理解することで、人々が当たり前として受け入れている多くの社会政治的な現象を理解することができます。なぜ大統領選挙の世論調査はしばしば不正確なのですか？なぜ一見強力な機械学習モデルが実世界で失敗するのですか？なぜ一部の企業は日の目を見ない製品を作ってしまうのですか？

答えは、サンプルにあります。

「エラー」とは「間違い」ではありません

このトピックは、データや統計を含むほとんどの授業に暗黙的に含まれていますが、ここでの私の議論は、Alberto Cairo氏の優れた書籍「How Charts Lie」でのこのポイントへの強調に触発されています。

Cairoの本の前提は、データの視覚化が人々を欺くためのさまざまな方法を概説することです。これには意図的であろうとなかろうと、データの視覚化が誤解を招くことができる不確実性の視覚化に関する課題についての詳細な説明も含まれます。

彼は統計学における「エラー」の概念について触れています。彼は重要な点を指摘しています。標準的な英語では、「エラー」という用語は「間違い」と同義ですが、統計の領域ではまったく異なります。

統計的な誤差の概念は不確実性と関係があります。測定やモデルにはほとんど常に何らかの形の誤差が存在します。これは以前のサンプルに関連しています。説明したい人口のすべてのデータポイントを持っていないため、不確実性に直面することになります。これは、将来のデータポイントについて予測を行う場合にさらに強調されます。

不確実性を最小化し、対処することは統計学とデータサイエンスの重要な部分ですが、この記事の範囲を超えています。ここでは、主なポイントは、統計的な発見が不確かさの尺度とともに提供されるからといって必ずしも間違っているわけではないということを理解することです。実際、これは調査結果を作成した人が何をしているかを知っていたということの兆候です（不確かさのレベルに言及しない統計的な主張には懐疑的であるべきです）。

統計的主張の不確実性を解釈する正しい方法を学びましょう[2]。それを正しく理解することは重要です。

いつも単に「モデルを作ればいい」とは限らない

一般の人々の中には、人工知能が何でもできる魔法のようなツールであるという考えがあるようです。自動運転車や現実的な仮想アシスタントの登場にもかかわらず、一般的なデータリテラシーの進展には伴っていないため、このような考えが生まれたのは驚くことではありません。

残念ながら、それは真実からかけ離れた考えです。AIは魔法ではありません。良質なデータに大いに依存しており、基礎となるデータが品質が低い場合、その結果は実際には誤解を招く可能性があります。

私はかつて、特定の目標に向けて機械学習モデルを構築するプロジェクトに割り当てられた同僚がいました。彼女の仕事は、過去のデータに基づいて将来のイベントを特定のカテゴリに分類するためのモデルを構築することでした。

ただ1つ問題がありました。彼女はデータを持っていませんでした。プロジェクトの他のメンバー（データサイエンスに詳しくない人々）は、データがないのにモデルを作ればいいと主張し続けました。なぜなら、機械学習はとても強力であり、これは実現可能だと思われるからです。彼らは彼らの要求が単純に実現不可能であることを理解していませんでした。

はい、機械学習は強力であり、はるかにクールで良いタスクを行う能力が向上しています。しかし、現時点では、すべての問題に対する魔法の解決策ではありません。それを覚えておくと良いでしょう。

数字は嘘をつく

人々は「数字は嘘をつかない」というフレーズをパーティのように投げかけます。

ああ、もし彼らが知っていたら。数字は実際にはよく嘘をつきます。時には真実を伝えるよりも頻繁に嘘をつきます。ただし、数字は生の形式で間違っているわけではなく、一般の人々がそれらを解釈する方法を知らないために嘘をつきます。

数字が曲げられ、操作され、変更され、変換されて主張を支持するために使用される無数の例があります。ポイントを明確にするために、ここでは一つの例を取り上げます：一般的な陳述をする際に基礎となる人口分布を考慮しないこと。

それだけでは少し曖昧なので、具体的な例を見てみましょう。次のようなシナリオを考えてみてください。これは医学生にしばしば提案されるものです：

ある病気が人口の1000人に1人の割合で発生すると仮定しましょう。この病気を持っているかどうかを調べるためのテストがあります。このテストは偽陰性を出さない（つまり、病気を持っている人は陽性になる）が、偽陽性率は5％です（病気を持っていない人でも陽性になる確率が5％あります）。人口からランダムに選ばれた人がテストを受けて陽性になった場合、彼らが実際に病気を持っている確率はどのくらいですか？

一見すると、多くの人が答えとして95％と考えるのは合理的です。一部の人々は、偽陽性率だけを使用してこの決定を下すことが数学的に正確ではないかもしれないと疑問に思うかもしれませんが、それでも答えはほぼ近い場所にあると推測するでしょう。

残念ながら、正しい答えは95％でも近くでもありません。ランダムに選ばれた人がこの病気を実際に持っている確率は、おおよそ2％です。

ほとんどの人が正しい答えからかけ離れている理由は、彼らが低い偽陽性率に注意を払っている一方で、人口内での病気の広がりを考慮していないからです：人口の中で実際にこの病気を持っているのは1000人に1人（または0.1％）だけです。その結果、5％の偽陽性率は、始めから病気を持っている人が非常に少ないため、多くの個人に影響を及ぼすことになります。言い換えれば、偽陽性になる機会は非常に多いのです。

これについての正式な数学は、この特定の記事の範囲を超えていますが、興味がある場合はこちらで詳しい説明を見ることができます[3]。とは言っても、数学に深入りする必要はなく、主要なポイントを理解するためには不要です：上記のシナリオを使用して、人々に病気のリスクが実際よりもはるかに高いと信じ込ませることができると想像することができます。数値だけではしばしば誤った信念を促進するために誤解されたり誤解されたりすることがあります。

警戒してください。

最後の考察とまとめ

この記事からの重要な要点のチートシートを以下に示します：

大きなサンプル≠良いサンプル 。正確な集団の表現を保証するには、量だけでは十分ではありません。
統計学において、「誤差」とは「間違い」を意味しません。それは統計的な作業の避けられない要素である不確実性に関連しています。
機械学習と人工知能は魔法ではありません 。それらは基礎データの品質に大きく依存しています。
数値は誤解を招くことがあります 。特に非学術的な（つまりニュースの）文脈で誰かが統計的な主張をする場合は、結論を受け入れる前に注意深く検討してください。

このデータ駆動の世界を航海するために統計のエキスパートになる必要はありませんが、基礎的なアイデアを理解し、避けるべき落とし穴を知ることは有益です。この記事が最初の一歩を踏み出すのに役立つことを願っています。

次回まで。

参考文献

[1] https://towardsdatascience.com/the-three-building-blocks-of-data-science-2923dc8c2d78 [2] https://bookdown.org/jgscott/DSGI/statistical-uncertainty.html [3] https://courses.lumenlearning.com/waymakermath4libarts/chapter/bayes-theorem/

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Data scienceeducationMachine learningStatisticsTechnology

Was this article helpful?

93 out of 132 found this helpful