言語を超えるSNS【M2M-100】:100言語翻訳で少ない言語データを補足する方法(3/4)

SHARE:

(前回からのつづき)Facebookは、逆翻訳を使用してリソースの少ない言語のデータを補足した。これは、ある言語で翻訳モデルをトレーニングしそれを使用して特定の言語に翻訳、その翻訳データから逆翻訳を行い新たなデータを生成する方法だ。

たとえば、目標が中国語からフランス語の翻訳モデルをトレーニングすることであった場合、Facebookの研究者はフランス語から中国語への翻訳モデルをトレーニングし、フランス語のすべての翻訳データを使用して中国語の逆翻訳データを生成する。 M2M-100の開発過程ではマイニングされた言語データに、このようにして作られたデータを追加しこれまでに見られなかった言語ペアのデータを作成した。

Facebookの研究者によるとM2M-100はモデルの並列処理を活用し、現在の2言語間の翻訳モデルよりも2桁大きいモデルサイズのトレーニングを行なう。大規模なモデルをトレーニングするためのPyTorch向けライブラリFairscaleを使用して、トレーニング中モデルは数百のグラフィックカードに分割されるが基礎となるデータは同じであるため、それぞれのカードはデータの一部ではなくモデルの一部をトレーニングする。

M2M-100がパフォーマンスを低下させることなく拡張できるよう、Facebookの研究者は、モデルのパラメータ(この場合、予測に影響を与える変数のこと)を重複しない言語グループに分割した。この戦略の組み合わせによりモデルの容量は100倍に増加し、Facebookが高精度であると自負する言語翻訳を提供できるようになった。

Facebookは154億のパラメーターによって、追加のモデル容量でトレーニングをした最もデータの多い高リソース言語ペアでの改善がM2M-100で見られたと述べている。 「モデル容量の高密度スケーリングと言語固有のパラメーター(計30億個)を組み合わせることで、大規模モデルの利点と、さまざまな言語に特化したレイヤーを学習する機能を提供します」とFan氏は書いている。(次につづく)

【via VentureBeat】 @VentureBeat

【原文】

Members

BRIDGEの会員制度「Members」に登録いただくと無料で会員限定の記事が毎月10本までお読みいただけます。また、有料の「Members Plus」の方は記事が全て読めるほか、BRIDGE HOT 100などのコンテンツや会員限定のオンラインイベントにご参加いただけます。
無料で登録する