グーグルサーチは、Googleサーチで文法チェック機能を備えた革新的なテキスト編集AIモデルであるEdiT5を導入しました

「Googleサーチが革新的なテキスト編集AIモデルEdiT5の文法チェック機能を導入!」

画期的な進歩として、Googleはその検索エンジンに革新的なEdiT5モデルによる最先端の文法修正機能を導入しました。この革新的なアプローチは、複雑な文法エラー修正(GEC)がもたらす課題に対処し、高い精度とリコールを確保しながら、素晴らしい速さで結果を提供します。

従来、GECは翻訳の問題としてアプローチされ、オートリグレッシブなトランスフォーマーモデルが利用されてきました。効果はあるものの、この方法ではオートリグレッシブなデコーディングによる並列化の制限が効率性に影響を与えます。より効率的なプロセスの必要性を認識し、EdiT5の開発チームは、GECをテキスト編集の問題として再構築しました。T5トランスフォーマーエンコーダデコーダーアーキテクチャを活用することで、デコーディングステップを大幅に削減し、レイテンシを最小限に抑えました。

EdiT5モデルは、文法エラーが含まれた入力を受け取り、エンコーダを使用して保持または削除するトークンを決定します。保持されたトークンはドラフトの出力を形成し、ノンオートリグレッシブなポインタネットワークを使用して必要に応じて再順序付けすることができます。その後、デコーダは文法的に正しい出力を生成するために、ドラフトに存在しないトークンを挿入します。重要なことは、デコーダはドラフトにないトークンのみに対して操作を行い、従来の翻訳ベースのGECと比較して処理時間を大幅に削減する点です。

デコード速度をさらに向上させるために、チームはデコーダを単層に絞り込み、同時にエンコーダのサイズを拡張しました。この戦略的な調整により、作業負荷が均衡化され、レイテンシが大幅に削減されます。具体的には、EdiT5モデルは驚異的な平均レイテンシ4.1ミリ秒で素晴らしい結果を達成することを意味します。

公開Bea文法エラー修正ベンチマークで行われたパフォーマンス評価は、EdiT5の優位性を示しています。パラメータ数が3億9100万である大規模なEdiT5モデルは、パラメータ数が2億4800万であるT5ベースモデルよりも高いF0.5スコア(修正の正確性を測定するもの)を出し、驚異的な9倍の高速化を実現しています。これは、モデルの効率性が非常に優れていることを示しています。

さらに、研究はモデルサイズが正確な文法修正の生成において重要な役割を果たすことを強調しています。大規模言語モデル(LLM)の利点とEdiT5の低レイテンシを組み合わせるために、ハード蒸留と呼ばれる技術を活用しています。教師LLMをトレーニングし、それを学生EdiT5モデルのトレーニングデータ生成に利用することで、正確さと速度の強力なシナジーを実現しています。

開発プロセスでは、最適なパフォーマンスを確保するためにトレーニングデータを洗練しました。非文法的なソースと文法的なターゲット文のペアから成るトレーニングセットは、厳格なセルフトレーニングと反復的な改善が行われました。この入念なアプローチにより、不要な言い換え、アーティファクト、文法エラーが排除され、クリーナーでより一貫性のあるトレーニングデータが得られました。

最終的な実装では、EdiT5ベースのモデルが2つトレーニングされました。文法エラー修正モデルと文法正当性分類器です。ユーザーが文法チェック機能を利用すると、クエリはモデルによる修正を受けた後、分類器によって検証されます。この2段階のプロセスにより、正確な修正のみがユーザーに提示され、誤ったまたは混乱を招く提案のリスクが軽減されます。

EdiT5を活用した文法チェック機能の導入により、Google検索は効率的かつ正確な文法修正の新たな基準を確立しました。ユーザーは単に検索時に「文法チェック」というフレーズを含めることで、クエリの文法的正当性を自信をもって評価することができます。自然言語処理のこのマイルストーンは、Googleのユーザーエクスペリエンスの向上と信頼性のある正確な検索結果に対する取り組みを再確認しています。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

AI研究

「MITの研究者が、デバイス内の意味的セグメンテーションのための新しい軽量マルチスケールアテンションを紹介」

セマンティックセグメンテーションは、コンピュータビジョンの基本的な課題であり、入力画像の各ピクセルを特定のクラスに分...

AI研究

Googleの研究者が新たな大規模言語モデルの能力向上に向けた『Universal Self-Consistency (USC)』を披露

複数の候補者から最も一貫性のある回答を選び出し、特に数理推論やコード生成などのタスクのパフォーマンスを向上させる問題...

AI研究

バイトダンスとCMUの研究者は、AvatarVerseを紹介しますテキストの説明とポーズガイダンスの両方で制御される高品質な3Dアバターを生成するための新しいAIパイプラインです

3Dアバターは、ゲーム開発、ソーシャルメディアとコミュニケーション、拡張現実と仮想現実、および人間とコンピューターのイ...

機械学習

『AI入門』

「ここでは、AIの学び方についての私の以前の記事を読んでいることを前提としています再度お伝えしますが、機械学習を学ぶ際...

データサイエンス

MIT-Pillar AI Collectiveが初めてのシードグラント受賞者を発表

人工知能、データサイエンス、機械学習の研究を行う6つのチームが、商業的な応用の可能性を持つプロジェクトに対して資金援助...

人工知能

チャレンジを受け入れました:アニメーターのワード・ナイシュタット氏が、今週の「NVIDIA Studio」でロボット革命を驚異的なスピードでリード

編集者注:この投稿は私たちの週間In the NVIDIA Studioシリーズの一環であり、特集されたアーティストを称え、クリエイティ...