言語を超えるSNS【M2M-100】:100言語翻訳で少ない言語データを補足する方法(3/4)

SHARE:

(前回からのつづき)Facebookは、逆翻訳を使用してリソースの少ない言語のデータを補足した。これは、ある言語で翻訳モデルをトレーニングしそれを使用して特定の言語に翻訳、その翻訳データから逆翻訳を行い新たなデータを生成する方法だ。

たとえば、目標が中国語からフランス語の翻訳モデルをトレーニングすることであった場合、Facebookの研究者はフランス語から中国語への翻訳モデルをトレーニングし、フランス語のすべての翻訳データを使用して中国語の逆翻訳データを生成する。 M2M-100の開発過程ではマイニングされた言語データに、このようにして作られたデータを追加しこれまでに見られなかった言語ペアのデータを作成した。

Facebookの研究者によるとM2M-100はモデルの並列処理を活用し、現在の2言語間の翻訳モデルよりも2桁大きいモデルサイズのトレーニングを行なう。大規模なモデルをトレーニングするためのPyTorch向けライブラリFairscaleを使用して、トレーニング中モデルは数百のグラフィックカードに分割されるが基礎となるデータは同じであるため、それぞれのカードはデータの一部ではなくモデルの一部をトレーニングする。

M2M-100がパフォーマンスを低下させることなく拡張できるよう、Facebookの研究者は、モデルのパラメータ(この場合、予測に影響を与える変数のこと)を重複しない言語グループに分割した。この戦略の組み合わせによりモデルの容量は100倍に増加し、Facebookが高精度であると自負する言語翻訳を提供できるようになった。

Facebookは154億のパラメーターによって、追加のモデル容量でトレーニングをした最もデータの多い高リソース言語ペアでの改善がM2M-100で見られたと述べている。 「モデル容量の高密度スケーリングと言語固有のパラメーター(計30億個)を組み合わせることで、大規模モデルの利点と、さまざまな言語に特化したレイヤーを学習する機能を提供します」とFan氏は書いている。(次につづく)

【via VentureBeat】 @VentureBeat

【原文】