NLPの探索 – NLPのキックスタート(ステップ#1)

NLPの探索 - NLPのキックスタート(ステップ#1)

「自然言語処理を探求する」シリーズに初めて参加する方は、このイントロダクション記事をご覧ください。

自然言語処理の探求とマスタリング — 深淵を旅する

こんにちは、私はDeepthi Sudharsanです。人工知能の学士号(B.Tech)を取得している3年生の学部生です。既に…

VoAGI.com

この学期、私はカリキュラムの一部としてNLPを学んでいます。やったー!この科目の今後の評価の一環として、与えられた教材を復習し、メモを作成しました。それを今日共有します。役に立てば嬉しいです。また、インドのコーヤンブトゥールにあるアムリタ・ヴィシュワ・ヴィディヤペータム大学のCEN学科の教員に感謝の意を表したいと思います。彼らの指導、励まし、サポートによって、私はこのシリーズを始めることができました。彼らの教えによって、私はNLPへの愛を追求しています。特に、アムリタ・コーヤンブトゥールのCENのSachin Kumar S氏には、今学期、この科目を担当していただいたことに感謝いたします。ここで収集された情報や画像の一部は、彼が提供または作成したリソースや教材から得られたものです。

NLPとは何ですか?

コンピュータと人間の言語の相互作用の研究を自然言語処理と呼びます。それは、コンピュータに人間と同様の方法でテキストや音声の内容を理解する能力を与えることを試みます。

目標:文脈的な意味を完全に捉えること(文脈とはテキストの意味から得られる情報を指します)

提供:https://www.slideshare.net/YuriyGuts/natural-language-processing-nlp Slide 3
  1. 音声学:人間が音声を生成し理解する方法、または手話の相当する要素の研究
  2. 音韻論:言語または方言がその音声または手話の構成要素を体系的にどのように組織するかの研究
  3. 形態論:単語の内部構造の研究- 形態素は形態論の構成要素です- 単語は言語の最小の独立単位です- 単純な単語には内部構造がありません(または1つの形態素で構成されています)。例:work, run- 複雑な単語には内部構造があります(1つ以上の形態素で構成されています)。例:worker(work+er)、building(build+ing)
  4. 構文:単語や形態素が句や文などのより大きな単位を形成する方法の研究
  5. 意味論:参照、意味、真理の研究
  6. 語用論:文脈が意味にどのように貢献するかの研究

いくつかの重要な用語:

  1. トークンは単語、文字、サブワードなどと考えることができます。
  2. トークン化はテキスト文の部分をトークンに分けるプロセスです。
  3. コーパスはテキストデータのコレクションです。
  4. ボキャブラリーはコーパス内の一意のトークンのコレクションです。
  5. レキシコンは単語とその意味を指します。
トークン化はNLPパイプラインの最初のステップです。提供:https://www.slideshare.net/YuriyGuts/natural-language-processing-nlp

トークン化の種類

参考:https://towardsdatascience.com/overview-of-nlp-tokenization-algorithms-c41a7d5ec4f9

単語レベルのトークナイゼーション

与えられた文を特定の区切り文字に基づいて単語に分割します

「She is smarter」は「she」「is」「smarter」となります。ここでは区切り文字はスペースです。

デメリット:

「Out of Vocabulary (OOV)」(語彙外)の単語がある場合(1つの解決策は、珍しい単語を未知のトークン(UNK)で置き換えることです。この場合、語彙は頻出する上位k個の単語のみを含みますが、新しい単語に関する情報は失われます)

作成される語彙のサイズが非常に大きくなり、メモリとパフォーマンスの問題が発生します(1つの解決策は、文字レベルのトークナイゼーションに切り替えることです)

空白と句読点に基づいて文を分割する際に、スペースや句読点で区切られているが単一のトークンと見なされる単語(don’t、New Yorkなど)の処理に問題があります。

文字レベルのトークナイゼーション:

与えられた文を文字のシーケンスに分割します。

「Smarter」は「s」「m」「a」「r」「t」「e」「r」となります。

利点:

語彙のサイズが小さい(26のアルファベット+特殊文字など)スペルミスが扱われます

サブワードトークナイゼーション:

単語をより小さな部分に分割します。

「Smarter」は「Smart」「er」となります。

ストップワード:

「the」「in」「where」など、テキストでよく使用される単語です。

import nltkfrom nltk.corpus import stopwords #Pythonprint(set(stopwords.words('english')))

NLPの数少ない課題:

  1. 曖昧さ(1つの文やフレーズに複数の解釈がある。2つのタイプ:構文的-文の複数の解釈と語彙的-単語の複数の解釈)
  2. 略語(短縮形)
  3. 非言語トークン
  4. ソーシャルメディアのデータ(コードミックス形式で)

言語モデリング:

文脈を考慮して次に発生しうる言語単位(単語、テキスト、文、トークン、記号など)を予測すること。

トークンのシーケンスに確率値を割り当てるモデルは、言語モデルと呼ばれます

最もシンプルなLMは「N-gram」です。それは文または「n」個のトークンのシーケンスに確率を割り当てます。

これはマルコフ仮定を使用しており、次の単語の確率は前の単語にのみ依存します。N-gramモデルは、次の単語を予測するために過去の(n-1)単語を参照します。

参考文献

NLPにおけるトークナイゼーションアルゴリズムの概要

サブワード、BPE、およびSentencePieceを含むトークナイゼーション方法の紹介

towardsdatascience.com

  1. 「Speech & language processing」、Daniel Jurafsky、James H Martin、preparation [cited 2020 June 1](利用可能元:https://web.stanford.edu/~jurafsky/slp3(2018))
  2. https://www.slideshare.net/YuriyGuts/natural-language-processing-nlp
  3. 「Foundations of Statistical Natural Language Processing」、Christopher Manning、Hinrich Schütze、MIT press、1999
  4. 「Natural Language Processing with Python」、Steven Bird、Ewan Klein、Edward Loper、O’Reilly Media, Inc.」、2009年。
  5. 「Deep Learning for Natural Language Processing:Develop Deep Learning Models for your Natural Language Problems(Ebook)」、Jason Browlee、Machine Learning Mastery、2017年。
  6. 「Speech & language processing」、Daniel Jurafsky、James H Martin、preparation [cited 2020 June 1]
  7. https://all-about-linguistics.group.shef.ac.uk/branches-of-linguistics/morphology/what-is-morphology//
  8. http://sams.edu.eg/en/faculties/flt/academic-programs-and-courses/department-of-english-language/
  9. https://www.coursehero.com/file/127598328/Human-Comm-Ch-2-4-Notesdocx//
  10. https://slideplayer.com/slide/7728110/
  11. https://www.geeksforgeeks.org/removing-stop-words-nltk-python/

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

AIニュース

「FacebookとInstagramにて、Metaが新しいAI機能を発表」

人工知能において注目すべき進展が詰まった2022年において、Metaは革新的な進歩を遂げ、確実にリードを取っています。仮想ア...

人工知能

「Canvaを使用して無料のAIアバターを作成する」

この記事の最後まで読むと、無料で自分そっくりのAIビデオを作る方法が完璧にわかるでしょう

データサイエンス

「NVIDIA DGX Cloudが利用可能になり、生成型AIトレーニングを強化します」

NVIDIA DGX Cloud(ほぼすべての企業をAI企業に変えることができるツールを提供する)は、現在、Oracle Cloud Infrastructure...

AI研究

Google フォトのマジックエディター:写真を再構築するための新しいAI編集機能

Magic Editorは、AIを使用して写真を再構想するのを手助けする実験的な編集体験です今年後半には、選択されたPixel電話での早...

データサイエンス

データサイエンティストが生産性を10倍にするための5つのツール

AIツールは、単調で繰り返されるタスクを自動化することで、データサイエンティストの生産性を最大限に引き上げるのに役立ち...

機械学習

エコジェンに会ってください:生物学者や生態学者のためにリアルな鳥の歌を生成するために設計された新しいディープラーニングのアプローチ

ディープラーニングの登場は、さまざまな分野に大きな影響を与え、さまざまな領域にその影響を広げています。注目すべき応用...