「ビジネスはマルチリンガル製品分類器の精度をどのように改善できるのか?このAI論文では、訓練データが限られた言語における分類精度を高めるためのアクティブラーニング手法であるLAMMを提案しています」

In this AI paper, the LAMM active learning method is proposed to improve the accuracy of multilingual product classifiers in business by enhancing the classification accuracy in languages with limited training data.

異なる言語に共通の表現を活用することで、クロスリンガル学習は、モデルのトレーニングに限られたデータを持つ低リソース言語(LRL)におけるNLPモデルの精度を向上させることが知られています。しかし、高リソース言語(HRL)と低リソース言語(LRL)の精度には大きな差があり、これはLRLからの事前トレーニングデータの相対的な不足につながっています。プロの文脈では、言語レベルの正確さを求めることが頻繁にあります。これは、ニューラル機械翻訳、転写、および類似データへのラベル伝播などの技術が役立つ場合があります。これらの技術は既存のトレーニングデータを合成的に強化するために使用され、手動注釈を避けることができます。

これらの手法は、訳注が非常に高価な手法を用いることなく、トレーニングデータの量と品質を向上させるために使用することができます。機械翻訳の制約のため、通常はLRLの精度が向上するものの、商業目標に追いつく必要がある場合があります。

Amazonの研究チームは、能動学習を用いてラベル付きデータを選択的に収集することで、低リソース言語(LRL)の精度を向上させるアプローチを提案しています。多言語データに対する能動学習は以前から研究されてきましたが、ほとんどは単一の言語のモデルをトレーニングすることに焦点が当てられていました。そのため、彼らは効果的に言語間で翻訳できる単一のモデルを完成させることを目指しています。提案された方法であるマルチリンガルモデルのための言語認識能動学習(LAMM)は、単一のモデルを利用しながら言語間でモデルのパフォーマンスを向上させることが示された先行研究に類似しています。残念ながら、このアプローチではLRLの精度を特定のターゲットに向けて向上させる手段を提供していません。言語レベルの目標を達成するためには、既に精度目標を超えた言語のラベルを取得することを強要する現在の最先端の能動学習アルゴリズムは、言語レベルの目標を達成する必要がある状況で手動注釈を浪費してしまいます。HRLのパフォーマンスに悪影響を与えることなく、LRLの精度を向上させるために、彼らは戦略的にラベル付きデータを収集するための能動学習ベースの戦略を提案しています。提案された戦略であるLAMMは、関連するすべての言語で目標の精度を達成する可能性を高めます。

研究者は、LAMMを複数の目標を達成するMOPとしてフレーム化しています。目標は、次のようなラベルのないデータの例を選ぶことです:

  • 確定できない(モデルが結果にあまり信頼を持っていない)
  • 言語ファミリーから、分類器のパフォーマンスが目標を上回る可能性がある

Amazonの研究者は、通常のプールベースの能動学習セットアップを使用して、4つのマルチリンガル分類データセットでLAMMのパフォーマンスを2つのベンチマークと比較しました。公開データセットの例にはAmazonのレビューやMLDocがあります。Amazon内部で使用される2つのマルチリンガル製品分類データセットも使用されています。以下が標準的な手順です:

  • 最も自信度が低い(LC)は、エントロピーが最も不確かなサンプルを収集します。
  • 均等割り当て(EC)は、エントロピーが高いサンプルを収集して、言語ごとの注釈予算を均等に分割します。

LAMMは、LRL全体で競合に比べて優れたパフォーマンスを示し、HRLではわずかに劣るだけです。LAMMを使用すると、HRLラベルの割合が62.1%減少しますが、AUCの精度はLAMMとLCを比較してわずかに1.2%減少します。4つの異なる製品分類データセットを使用し、公開データセット2つとプロプライエタリデータセット2つを使用して、LAMMは堅牢なベースラインに比べてLRLのパフォーマンスを4〜11%向上させることを示しています。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more