タグ 【M2M-100】

言語を超えるSNS【M2M-100】:100言語対応の機械翻訳、最後のチェックは「人」(4/4)

SHARE:

(前からのつづき)Facebookではネイティブスピーカーのグループが英語以外の20組の言語間での翻訳結果についてクオリティのチェックを行なっている。彼らはM2M-100による翻訳の忠実度を「比較的高い」と評価したが、テキストが意味をなさないようなスラングに対しては直訳する傾向が見られたとしている。また、このモデルはたとえば文章中のコンマ抜けといった文法的な問題によって解釈を誤りがちだということを…

前からのつづき)Facebookではネイティブスピーカーのグループが英語以外の20組の言語間での翻訳結果についてクオリティのチェックを行なっている。彼らはM2M-100による翻訳の忠実度を「比較的高い」と評価したが、テキストが意味をなさないようなスラングに対しては直訳する傾向が見られたとしている。また、このモデルはたとえば文章中のコンマ抜けといった文法的な問題によって解釈を誤りがちだということを発見した。Facebookの研究者はM2M-100に関する論文でこう述べている。

「多くの言語に対して、合理的な翻訳結果が確実に得られるようにするためにはかなりの改善が必要です。たとえばコサ語、ズールー語などのアフリカの言語、カタロニア語、ブルターニュ語などのヨーロッパ言語、イロカノ語、セブアノ語などのアジア言語が挙げられます。これらの多くは、インターネットで得られる単一言語のリソースすら限られており、そのことがトレーニングデータの質と量に大いに影響を与えています」。

確かに、言語モデルはデータセットのバイアスを強化して学習してしまい、暗黙的にバイアスのかかった表現で害を与え続けるという証拠は十分に存在する。MIT、Intelおよびカナダのイニシアチブ「CIFAR」のAI研究者はBERT、XLNet、OpenAIのGPT-2、RoBERTaに高レベルのバイアスを発見している。

Allen Institute for AIの研究者は、現時点の機械学習は有害なアウトプットを十分に防ぐことのできる技量をもっていないと主張し、トレーニングセットおよびモデルアーキテクチャの改善の必要性を強調した。この他にも、GoogleはGoogle Translateの土台となっている翻訳モデルが特にトルコ語、フィンランド語、ペルシャ語、ハンガリー語などのリソースが不足している言語に関してジェンダーバイアスをもつという証拠を発見(そして対処する必要性を主張)した。

M2M-100では潜在的なバイアスを軽減するためにどのようなステップを講じているかという質問に対しFacebook AI研究者のAngela Fan氏はVentureBeatへ次のような回答を寄せている。

「今の研究段階では、モデルの正しい部分と正しくない部分を見極めるテストを行いたいと考えています。具体的には有害な翻訳を防ぐために、不適切な文言のフィルターを使用した研究を行いましたが、正確性が高いという結果は(まだ)得られませんでした・・・。私たちはまだ研究段階にいて、システムをもっと公正なものにしようとしているところです。これがFacebookで未だ稼働させていない理由のひとつです」。

チームは翻訳からジェンダー的な単語を取り除く明確なメカニズムを取り入れていないが、M2M-100が犯したミスの種類を理解するための研究を始めているとFan氏は付け加えた。

「BLEUのスコアだけを見るのではなく、私たちがどれほどうまく翻訳できているかをネイティブスピーカーから教えてもらうことも大切です。全体的にみれば、私たちのモデルは大部分の言語において非常にスコアが高いのですが、ウォロフ語、マラーティー語のような低リソースの言語には改善の余地があります」。

【via VentureBeat】 @VentureBeat

【原文】

BRIDGE Members

BRIDGEが運営するメンバー向けイベント「Tokyo Meetup」では新サービスの紹介やノウハウ共有などを通じて、スタートアップと読者のみなさんが繋がる場所を提供いたします。メンバー登録は無料です。
  • BRIDGE Canvasの購読
  • メンバー向けDiscordご招待
  • BRIDGE Tokyoなどイベントご招待
無料メンバー登録


言語を超えるSNS【M2M-100】:100言語翻訳で少ない言語データを補足する方法(3/4)

SHARE:

(前回からのつづき)Facebookは、逆翻訳を使用してリソースの少ない言語のデータを補足した。これは、ある言語で翻訳モデルをトレーニングしそれを使用して特定の言語に翻訳、その翻訳データから逆翻訳を行い新たなデータを生成する方法だ。 たとえば、目標が中国語からフランス語の翻訳モデルをトレーニングすることであった場合、Facebookの研究者はフランス語から中国語への翻訳モデルをトレーニングし、フラ…

(前回からのつづき)Facebookは、逆翻訳を使用してリソースの少ない言語のデータを補足した。これは、ある言語で翻訳モデルをトレーニングしそれを使用して特定の言語に翻訳、その翻訳データから逆翻訳を行い新たなデータを生成する方法だ。

たとえば、目標が中国語からフランス語の翻訳モデルをトレーニングすることであった場合、Facebookの研究者はフランス語から中国語への翻訳モデルをトレーニングし、フランス語のすべての翻訳データを使用して中国語の逆翻訳データを生成する。 M2M-100の開発過程ではマイニングされた言語データに、このようにして作られたデータを追加しこれまでに見られなかった言語ペアのデータを作成した。

Facebookの研究者によるとM2M-100はモデルの並列処理を活用し、現在の2言語間の翻訳モデルよりも2桁大きいモデルサイズのトレーニングを行なう。大規模なモデルをトレーニングするためのPyTorch向けライブラリFairscaleを使用して、トレーニング中モデルは数百のグラフィックカードに分割されるが基礎となるデータは同じであるため、それぞれのカードはデータの一部ではなくモデルの一部をトレーニングする。

M2M-100がパフォーマンスを低下させることなく拡張できるよう、Facebookの研究者は、モデルのパラメータ(この場合、予測に影響を与える変数のこと)を重複しない言語グループに分割した。この戦略の組み合わせによりモデルの容量は100倍に増加し、Facebookが高精度であると自負する言語翻訳を提供できるようになった。

Facebookは154億のパラメーターによって、追加のモデル容量でトレーニングをした最もデータの多い高リソース言語ペアでの改善がM2M-100で見られたと述べている。 「モデル容量の高密度スケーリングと言語固有のパラメーター(計30億個)を組み合わせることで、大規模モデルの利点と、さまざまな言語に特化したレイヤーを学習する機能を提供します」とFan氏は書いている。(次につづく)

【via VentureBeat】 @VentureBeat

【原文】

BRIDGE Members

BRIDGEが運営するメンバー向けイベント「Tokyo Meetup」では新サービスの紹介やノウハウ共有などを通じて、スタートアップと読者のみなさんが繋がる場所を提供いたします。メンバー登録は無料です。
  • BRIDGE Canvasの購読
  • メンバー向けDiscordご招待
  • BRIDGE Tokyoなどイベントご招待
無料メンバー登録


言語を超えるSNS【M2M-100】:100言語の翻訳を実現するブリッジマイニング戦略(2/4)

SHARE:

(前回からのつづき)M2M-100はFacebookの多言語モデルであるXLM-Rに基づいて構築されており、1つの言語データから学習し、100の言語でタスクを実行する。 7月、Facebookは51の異なる言語をサポートする音声認識モデルをリリースした。さらに最近では、言語間で文をマイニングするための多数の言語によるラベルなしデータと優れたモデルをトレーニングするCRISSの詳細を明らかにした。F…

(前回からのつづき)M2M-100はFacebookの多言語モデルであるXLM-Rに基づいて構築されており、1つの言語データから学習し、100の言語でタスクを実行する。 7月、Facebookは51の異なる言語をサポートする音声認識モデルをリリースした。さらに最近では、言語間で文をマイニングするための多数の言語によるラベルなしデータと優れたモデルをトレーニングするCRISSの詳細を明らかにした。Facebook AI Research ParisのデータサイエンティストであるAngelaFan氏はブログの投稿で次のように書いている。

「何年もの間AI研究者は、さまざまな異なるタスクをすべての言語で理解できる単一で普遍的なモデルの構築に取り組んできました。すべての言語、方言、モダリティをサポートする単一モデルは、より多くの人々により良いサービスを提供し、翻訳を最新の状態に保ち、何十億人もの人々に対して平等で新しい体験を生み出す手助けとなります」。

M2M-100では、Facebookの研究者はさまざまなソースの表面上高品質なデータでマイニングを行うために新しい言語識別技術を用いた。1つは、自然言語処理モデルのゼロショット転送を実行するオープンソースツールキットであるLanguage-Agnostic Sentence Representations(LASER)だ。ほかにも、翻訳モデルをトレーニングするための”10億スケール”のbitextデータセットCCMatrixと、クロスリンガルなウェブドキュメントペアの大規模テストコレクションであるCCAlignedの2つがある。

Facebookの研究者は、翻訳の需要が統計的にまれなペア(アイスランド語ーネパール語やシンハラ語ージャワ語など)は除いて、分類、地理、文化の類似性に基づき言語を14のファミリーにグループ化する「ブリッジマイニング戦略」を導入した。同じグループに属する言語を使う国に住む人々は、より頻繁にコミュニケーションを取り、高クオリティな翻訳の恩恵がより受けやすいだろうという直感があったからだ。たとえば、あるファミリグループには、ベンガル語、ヒンディー語、マラーティー語、ネパール語、タミル語、ウルドゥー語など、インドで話されているさまざまな言語が含まれる。

Facebookの研究者は、それぞれのファミリーグループの言語をつなぐために、少数の「ブリッジ言語」、つまり各ファミリーグループごとに1〜3つの主要な言語を選定した。たとえば、ヒンディー語、ベンガル語、タミル語は、データセット内のインド・アーリア語のブリッジ言語になっている。次に、これらのブリッジ言語のすべての組み合わせ可能なトレーニングデータをマイニングし、前述の75億個の文のデータを取得した。(次につづく)

【via VentureBeat】 @VentureBeat

【原文】

BRIDGE Members

BRIDGEが運営するメンバー向けイベント「Tokyo Meetup」では新サービスの紹介やノウハウ共有などを通じて、スタートアップと読者のみなさんが繋がる場所を提供いたします。メンバー登録は無料です。
  • BRIDGE Canvasの購読
  • メンバー向けDiscordご招待
  • BRIDGE Tokyoなどイベントご招待
無料メンバー登録


言語を超えるSNS【M2M-100】:Facebook、100言語対応の機械翻訳モデルを公開(1/4)

SHARE:

Facebookは英語を中間言語として介さず、100言語の任意ペアを翻訳することが可能なアルゴリズムM2M-100をオープンソース化した。同モデルは、2200の言語ペアで機械学習が施されており、英語中心の他システムと比べてはるかに優れる翻訳性能となっているとする。M2M-100は、今後世界7000以上の言語ペアの翻訳を目指して開発を進める。同モデルは、類似する言語間で情報を共有することができるため…

Facebookは英語を中間言語として介さず、100言語の任意ペアを翻訳することが可能なアルゴリズムM2M-100をオープンソース化した。同モデルは、2200の言語ペアで機械学習が施されており、英語中心の他システムと比べてはるかに優れる翻訳性能となっているとする。M2M-100は、今後世界7000以上の言語ペアの翻訳を目指して開発を進める。同モデルは、類似する言語間で情報を共有することができるため、比較的学習量が少ない言語でも翻訳することが可能となる。

今まで、モデルサイズが大きくなるとより大きなデータセットが必要となったため、英語を中心としたモデリングやデータセットに注目が集まってきていた。(例えば、100言語をサポートするためにはおおよそ1,000億個程度の文章ペアが必要となる)。しかし、そうしたデータとモデリングには実際にどういったシチュエーションで翻訳を利用しているかなどが欠けるためバイアスが生じ、結果として英語以外の翻訳パフォーマンスが悪化すると指摘されていた。

それに対してFacebookのM2M-100モデルでは、100の異なる言語を75億にも渡る文章ペアでが機械学習が実施された。同社リサーチャーは、モデリングの言語選定に際して大きく3つの基準を定めた。一つ目は、地理的多様性があり、かつ世界的に話されている言語である点。2つ目は、モデルパフォーマンスの定量化を考慮し、エヴァリュエーションデータが既に存在している点。最後は、モノリンガルデータが存在しない点。以上を考慮し、言語データの選定を実施した。(次につづく)

【via VentureBeat】 @VentureBeat

【原文】

BRIDGE Members

BRIDGEが運営するメンバー向けイベント「Tokyo Meetup」では新サービスの紹介やノウハウ共有などを通じて、スタートアップと読者のみなさんが繋がる場所を提供いたします。メンバー登録は無料です。
  • BRIDGE Canvasの購読
  • メンバー向けDiscordご招待
  • BRIDGE Tokyoなどイベントご招待
無料メンバー登録