「Pythonによる言語の指紋認識」

Pythonの言語の指紋認識

句読点ヒートマップを使った著者の特定

青いセミコロンの黄色い色調の一本指紋(DALL-E2と著者による画像)

スタイロメトリーは、計算的なテキスト分析を通じて文体の量的研究です。これは、私たちが書く際に独自で一貫性のある、識別可能な文体を持っているという考えに基づいています。これには、語彙、句読点の使用、単語と文の平均長さなどが含まれます。

スタイロメトリーの典型的な応用は、著者の特定です。これは、盗作の調査や歴史的な文書の起源に関する紛争の解決など、文書の著者を特定するプロセスです。

このQuick Success Data Scienceプロジェクトでは、Python、seaborn、Natural Language Toolkit(NLTK)を使用して、シャーロック・ホームズシリーズで知られるシャーロック・ホームズシリーズの著者であるシャーロック・ホームズシリーズの著者であるサー・アーサー・コナン・ドイルが彼の小説「失われた世界」に言語的な指紋を残したかどうかを調べます。具体的には、セミコロンを使用して、サー・アーサー・コナン・ドイルか彼の同時代人であるH.G.ウェルズがこの本の著者である可能性を判断します。

ハウンド、戦争、失われた世界

サー・アーサー・コナン・ドイル(1859年-1930年)は、シャーロック・ホームズシリーズで最もよく知られています。H.G.ウェルズ(1866年-1946年)は、The Invisible Manなどいくつかの画期的なSF小説で有名です。

1912年、Strand Magazineは、科学小説の連載版である「失われた世界」を発表しました。その著者はわかっていますが、紛争中であると仮定し、私たちの仕事はその謎を解決することです。専門家たちは、ドイルとウェルズの2人の著者に絞り込みました。ウェルズは、The Lost Worldが科学小説であり、彼の1895年の作品「The Time Machine」に似たトログロディートが含まれているため、わずかに有利です。

この問題を解決するために、各著者の代表作が必要です。ドイルの場合、1901年に発表された「バスカヴィル家の犬」を使用します。ウェルズの場合、1898年に発表された「宇宙戦争」を使用します。

私たちにとって幸いなことに、これらの3つの小説はパブリックドメインであり、Project Gutenbergを通じて入手することができます。便宜上、私はそれらをこのGistにダウンロードし、ライセンス情報を取り除きました。

プロセス

著者の特定には自然言語処理(NLP)の適用が必要です。NLPは…

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

人工知能

ジョナサン・ダムブロット、Cranium AIのCEO兼共同創設者- インタビューシリーズ

ジョナサン・ダムブロットは、Cranium AIのCEO兼共同創業者ですCranium AIは、サイバーセキュリティおよびデータサイエンスチ...

人工知能

「コーネリスネットワークスのソフトウェアエンジニアリング担当副社長、ダグ・フラーラー氏 - インタビューシリーズ」

ソフトウェアエンジニアリングの副社長として、DougはCornelis Networksのソフトウェアスタック全体、Omni-Path Architecture...

データサイエンス

「2023年にデータサイエンスFAANGの仕事をゲットする方法は?」

データサイエンスは非常に求められる分野となり、FAANG(Facebook、Amazon、Apple、Netflix、Google)企業での就職は大きな成...

人工知能

「クリス・サレンス氏、CentralReachのCEO - インタビューシリーズ」

クリス・サレンズはCentralReachの最高経営責任者であり、同社を率いて、自閉症や関連する障害を持つ人々のために優れたクラ...

機械学習

3つの質問:大規模言語モデルについて、Jacob Andreasに聞く

CSAILの科学者は、最新の機械学習モデルを通じた自然言語処理の研究と、言語が他の種類の人工知能をどのように高めるかの調査...

人工知能

「ナレ・ヴァンダニャン、Ntropyの共同創設者兼CEO- インタビューシリーズ」

Ntropyの共同創設者兼CEOであるナレ・ヴァンダニアンは、開発者が100ミリ秒未満で超人的な精度で金融取引を解析することを可...