チューリッヒ大学の研究者たちは、スイスの4つの公用語向けの多言語言語モデルであるSwissBERTを開発しました

Researchers at the University of Zurich have developed SwissBERT, a multilingual language model for the four official languages of Switzerland.

有名なBERTモデルは、最近の自然言語処理の主要な言語モデルの1つです。この言語モデルは、入力シーケンスを出力シーケンスに変換するいくつかのNLPタスクに適しています。BERT(Bidirectional Encoder Representations from Transformers)は、Transformerのアテンションメカニズムを使用しています。アテンションメカニズムは、テキストのコーパス内の単語やサブワード間の文脈的な関係を学習します。BERT言語モデルは、NLPの進歩の最も顕著な例の1つであり、自己教師あり学習の技術を使用しています。

BERTモデルを開発する前、言語モデルは訓練時にテキストシーケンスを左から右に解析したり、左から右および右から左の組み合わせで解析することがありました。この一方向のアプローチは、次の単語を予測してシーケンスに追加し、それを繰り返して完全な意味のある文を生成するためにうまく機能しました。BERTでは、双方向のトレーニングが導入され、以前の言語モデルと比較して言語の文脈と流れのより深い理解が得られました。

元々のBERTモデルは英語向けにリリースされました。その後、フランス語向けのCamemBERTやイタリア語向けのGilBERToなど、他の言語モデルが開発されました。最近、チューリッヒ大学の研究者チームがスイスのための多言語言語モデルを開発しました。SwissBERTと呼ばれるこのモデルは、スイス標準ドイツ語、フランス語、イタリア語、ロマンシュグリシュンで21,000万以上のスイスのニュース記事をトレーニングし、合計120億トークンでトレーニングされました。

SwissBERTは、スイスの研究者が多言語タスクを実行することができないという課題に対処するために導入されました。スイスは主に4つの公用語、ドイツ語、フランス語、イタリア語、ロマンシュ語を持っており、各言語ごとに個別の言語モデルを組み合わせて多言語タスクを実行することは困難です。また、第4の国語であるロマンシュ語のための独立したニューラル言語モデルはありません。NLPの分野では多言語タスクの実装がやや困難であるため、SwissBERTの前にスイスの国語のための統一されたモデルは存在しませんでした。SwissBERTは、これらの言語の記事を単純に組み合わせて、共通のエンティティとイベントを暗黙的に利用して多言語表現を作成することで、この課題を克服します。

SwissBERTモデルは、81の言語で共に事前トレーニングされたクロスリンガルモジュラープリトレーニング(X-MOD)トランスフォーマーからリモデルされました。研究者は、カスタム言語アダプタをトレーニングすることで、プリトレーニング済みのX-MODトランスフォーマーを自分たちのコーパスに適応させました。彼らはSwissBERTのためのスイス固有のサブワード語彙を作成し、その結果得られたモデルは総パラメータ数が1億5300万にもなります。

研究チームは、SwissBERTのパフォーマンスを様々なタスクで評価しました。これには、現代のニュース(SwissNER)での固有名詞の認識や、スイスの政治に関するユーザー生成コメントでの立場の検出などが含まれます。SwissBERTは、一般的なベースラインを上回り、XLM-Rに比べて立場の検出においても改善が見られました。また、ロマンシュ語でのモデルの能力を評価した結果、SwissBERTは、言語でトレーニングされていないモデルに比べて、ゼロショットのクロスリンガル転送やドイツ語-ロマンシュ語の単語や文の整列において優れたパフォーマンスを発揮しました。ただし、モデルは、歴史的なOCR処理されたニュースでの固有名詞の認識にはあまり優れていませんでした。

研究者は、SwissBERTをダウンストリームタスクのファインチューニングのための例と共に公開しました。このモデルは将来の研究や非営利目的においても有望です。さらなる適応により、ダウンストリームタスクはモデルの多言語性の恩恵を受けることができます。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

機械学習

このAI論文は、「GREAT PLEA」倫理的フレームワークを提案しています:医療における責任あるAIのための軍事に焦点を当てたアプローチ

ピッツバーグ大学、ウェル・コーネル・メディシン、テレメディシン&先進テクノロジー研究センター、統合失調症(USU)、ブル...

データサイエンス

「限られたトレーニングデータでも、機械学習モデルは信頼性のある結果を生み出すことができる」

研究者は、機械学習モデルが限られた訓練データでも信頼性のある結果を生成できることを示しました

機械学習

ChatGPT APIへの適切な方法での通話の作り方

「LLMsは今や至る所に存在していますが、特にChatGPTはその中でも非常に多くのアプリケーションが構築されていますもしまだ試...

データサイエンス

「Meta AIは、社会的な具現化されたAIエージェントの開発における3つの主要な進展、Habitat 3.0、Habitat Synthetic Scenes Dataset、およびHomeRobotを紹介します」

Facebook AI Research (FAIR)は、社会的にインテリジェントなロボットの分野を推進することに専念しています。主な目標は、日...

機械学習

この人工知能ベースのタンパク質言語モデルは、汎用のシーケンスモデリングを解除します

人々が生命の言語を学ぶ方法は、自然言語の構文意味とタンパク質のシーケンス機能を比較することによって根本的に変わりまし...

機械学習

人工知能の言語スキルを評価する:ChatGPTの言語形態スキルをさらに掘り下げて

研究者は、ChatGPTの形態能力を厳密に評価し、英語、ドイツ語、タミル語、トルコ語の4つの言語で比較します。ChatGPTは専門シ...