言語を超えるSNS【M2M-100】:Facebook、100言語対応の機械翻訳モデルを公開(1/4)

SHARE:

Facebookは英語を中間言語として介さず、100言語の任意ペアを翻訳することが可能なアルゴリズムM2M-100をオープンソース化した。同モデルは、2200の言語ペアで機械学習が施されており、英語中心の他システムと比べてはるかに優れる翻訳性能となっているとする。M2M-100は、今後世界7000以上の言語ペアの翻訳を目指して開発を進める。同モデルは、類似する言語間で情報を共有することができるため、比較的学習量が少ない言語でも翻訳することが可能となる。

今まで、モデルサイズが大きくなるとより大きなデータセットが必要となったため、英語を中心としたモデリングやデータセットに注目が集まってきていた。(例えば、100言語をサポートするためにはおおよそ1,000億個程度の文章ペアが必要となる)。しかし、そうしたデータとモデリングには実際にどういったシチュエーションで翻訳を利用しているかなどが欠けるためバイアスが生じ、結果として英語以外の翻訳パフォーマンスが悪化すると指摘されていた。

それに対してFacebookのM2M-100モデルでは、100の異なる言語を75億にも渡る文章ペアでが機械学習が実施された。同社リサーチャーは、モデリングの言語選定に際して大きく3つの基準を定めた。一つ目は、地理的多様性があり、かつ世界的に話されている言語である点。2つ目は、モデルパフォーマンスの定量化を考慮し、エヴァリュエーションデータが既に存在している点。最後は、モノリンガルデータが存在しない点。以上を考慮し、言語データの選定を実施した。(次につづく)

【via VentureBeat】 @VentureBeat

【原文】