NLPの探索 – NLPのキックスタート(ステップ#1)

NLPの探索 - NLPのキックスタート(ステップ#1)

「自然言語処理を探求する」シリーズに初めて参加する方は、このイントロダクション記事をご覧ください。

自然言語処理の探求とマスタリング — 深淵を旅する

こんにちは、私はDeepthi Sudharsanです。人工知能の学士号(B.Tech)を取得している3年生の学部生です。既に…

VoAGI.com

この学期、私はカリキュラムの一部としてNLPを学んでいます。やったー!この科目の今後の評価の一環として、与えられた教材を復習し、メモを作成しました。それを今日共有します。役に立てば嬉しいです。また、インドのコーヤンブトゥールにあるアムリタ・ヴィシュワ・ヴィディヤペータム大学のCEN学科の教員に感謝の意を表したいと思います。彼らの指導、励まし、サポートによって、私はこのシリーズを始めることができました。彼らの教えによって、私はNLPへの愛を追求しています。特に、アムリタ・コーヤンブトゥールのCENのSachin Kumar S氏には、今学期、この科目を担当していただいたことに感謝いたします。ここで収集された情報や画像の一部は、彼が提供または作成したリソースや教材から得られたものです。

NLPとは何ですか?

コンピュータと人間の言語の相互作用の研究を自然言語処理と呼びます。それは、コンピュータに人間と同様の方法でテキストや音声の内容を理解する能力を与えることを試みます。

目標:文脈的な意味を完全に捉えること(文脈とはテキストの意味から得られる情報を指します)

提供:https://www.slideshare.net/YuriyGuts/natural-language-processing-nlp Slide 3
  1. 音声学:人間が音声を生成し理解する方法、または手話の相当する要素の研究
  2. 音韻論:言語または方言がその音声または手話の構成要素を体系的にどのように組織するかの研究
  3. 形態論:単語の内部構造の研究- 形態素は形態論の構成要素です- 単語は言語の最小の独立単位です- 単純な単語には内部構造がありません(または1つの形態素で構成されています)。例:work, run- 複雑な単語には内部構造があります(1つ以上の形態素で構成されています)。例:worker(work+er)、building(build+ing)
  4. 構文:単語や形態素が句や文などのより大きな単位を形成する方法の研究
  5. 意味論:参照、意味、真理の研究
  6. 語用論:文脈が意味にどのように貢献するかの研究

いくつかの重要な用語:

  1. トークンは単語、文字、サブワードなどと考えることができます。
  2. トークン化はテキスト文の部分をトークンに分けるプロセスです。
  3. コーパスはテキストデータのコレクションです。
  4. ボキャブラリーはコーパス内の一意のトークンのコレクションです。
  5. レキシコンは単語とその意味を指します。
トークン化はNLPパイプラインの最初のステップです。提供:https://www.slideshare.net/YuriyGuts/natural-language-processing-nlp

トークン化の種類

参考:https://towardsdatascience.com/overview-of-nlp-tokenization-algorithms-c41a7d5ec4f9

単語レベルのトークナイゼーション

与えられた文を特定の区切り文字に基づいて単語に分割します

「She is smarter」は「she」「is」「smarter」となります。ここでは区切り文字はスペースです。

デメリット:

「Out of Vocabulary (OOV)」(語彙外)の単語がある場合(1つの解決策は、珍しい単語を未知のトークン(UNK)で置き換えることです。この場合、語彙は頻出する上位k個の単語のみを含みますが、新しい単語に関する情報は失われます)

作成される語彙のサイズが非常に大きくなり、メモリとパフォーマンスの問題が発生します(1つの解決策は、文字レベルのトークナイゼーションに切り替えることです)

空白と句読点に基づいて文を分割する際に、スペースや句読点で区切られているが単一のトークンと見なされる単語(don’t、New Yorkなど)の処理に問題があります。

文字レベルのトークナイゼーション:

与えられた文を文字のシーケンスに分割します。

「Smarter」は「s」「m」「a」「r」「t」「e」「r」となります。

利点:

語彙のサイズが小さい(26のアルファベット+特殊文字など)スペルミスが扱われます

サブワードトークナイゼーション:

単語をより小さな部分に分割します。

「Smarter」は「Smart」「er」となります。

ストップワード:

「the」「in」「where」など、テキストでよく使用される単語です。

import nltkfrom nltk.corpus import stopwords #Pythonprint(set(stopwords.words('english')))

NLPの数少ない課題:

  1. 曖昧さ(1つの文やフレーズに複数の解釈がある。2つのタイプ:構文的-文の複数の解釈と語彙的-単語の複数の解釈)
  2. 略語(短縮形)
  3. 非言語トークン
  4. ソーシャルメディアのデータ(コードミックス形式で)

言語モデリング:

文脈を考慮して次に発生しうる言語単位(単語、テキスト、文、トークン、記号など)を予測すること。

トークンのシーケンスに確率値を割り当てるモデルは、言語モデルと呼ばれます

最もシンプルなLMは「N-gram」です。それは文または「n」個のトークンのシーケンスに確率を割り当てます。

これはマルコフ仮定を使用しており、次の単語の確率は前の単語にのみ依存します。N-gramモデルは、次の単語を予測するために過去の(n-1)単語を参照します。

参考文献

NLPにおけるトークナイゼーションアルゴリズムの概要

サブワード、BPE、およびSentencePieceを含むトークナイゼーション方法の紹介

towardsdatascience.com

  1. 「Speech & language processing」、Daniel Jurafsky、James H Martin、preparation [cited 2020 June 1](利用可能元:https://web.stanford.edu/~jurafsky/slp3(2018))
  2. https://www.slideshare.net/YuriyGuts/natural-language-processing-nlp
  3. 「Foundations of Statistical Natural Language Processing」、Christopher Manning、Hinrich Schütze、MIT press、1999
  4. 「Natural Language Processing with Python」、Steven Bird、Ewan Klein、Edward Loper、O’Reilly Media, Inc.」、2009年。
  5. 「Deep Learning for Natural Language Processing:Develop Deep Learning Models for your Natural Language Problems(Ebook)」、Jason Browlee、Machine Learning Mastery、2017年。
  6. 「Speech & language processing」、Daniel Jurafsky、James H Martin、preparation [cited 2020 June 1]
  7. https://all-about-linguistics.group.shef.ac.uk/branches-of-linguistics/morphology/what-is-morphology//
  8. http://sams.edu.eg/en/faculties/flt/academic-programs-and-courses/department-of-english-language/
  9. https://www.coursehero.com/file/127598328/Human-Comm-Ch-2-4-Notesdocx//
  10. https://slideplayer.com/slide/7728110/
  11. https://www.geeksforgeeks.org/removing-stop-words-nltk-python/

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

データサイエンス

「モデルの解釈性のためのPFIに深く入り込む」

「モデルの評価方法を知っていることは、データサイエンティストとしての仕事において不可欠ですステークホルダーに完全に理...

データサイエンス

「ビルドしてプレイ!LLM搭載のあなた自身のV&Lモデル!」

大型言語モデル(LLM)はますますその価値を示しています画像をLLMに組み込むことで、ビジョン言語モデルとしてさらに有用に...

人工知能

「Adversarial Autoencoders オートエンコーダーとGANの間のギャップを埋める」

イントロダクション 機械学習のダイナミックな領域において、2つの強力な技術を組み合わせることで、Adversarial Autoencoder...

機械学習

「AIとのプログラミング」

ジェネレーティブプログラミングはどのようにプログラミング言語を変革するのでしょうか?早い段階で既に見られる問題は、ど...

AI研究

シンガポール国立大学の研究者たちは、ピクセルベースと潜在ベースのVDMを結びつけたハイブリッド人工知能モデルであるShow-1を提案しますこれはテキストからビデオを生成するものです

シンガポール国立大学の研究者たちは、Show-1というハイブリッドモデルを導入しました。テキストからビデオを生成するための...

機械学習

GLIP オブジェクト検出への言語-画像事前学習の導入

今日は、言語-画像の事前学習であるCLIPの素晴らしい成功を基に、物体検出のタスクに拡張した論文であるGLIPについて掘り下げ...