言語を超えるSNS【M2M-100】:100言語の翻訳を実現するブリッジマイニング戦略(2/4)

SHARE:

(前回からのつづき)M2M-100はFacebookの多言語モデルであるXLM-Rに基づいて構築されており、1つの言語データから学習し、100の言語でタスクを実行する。 7月、Facebookは51の異なる言語をサポートする音声認識モデルをリリースした。さらに最近では、言語間で文をマイニングするための多数の言語によるラベルなしデータと優れたモデルをトレーニングするCRISSの詳細を明らかにした。Facebook AI Research ParisのデータサイエンティストであるAngelaFan氏はブログの投稿で次のように書いている。

「何年もの間AI研究者は、さまざまな異なるタスクをすべての言語で理解できる単一で普遍的なモデルの構築に取り組んできました。すべての言語、方言、モダリティをサポートする単一モデルは、より多くの人々により良いサービスを提供し、翻訳を最新の状態に保ち、何十億人もの人々に対して平等で新しい体験を生み出す手助けとなります」。

M2M-100では、Facebookの研究者はさまざまなソースの表面上高品質なデータでマイニングを行うために新しい言語識別技術を用いた。1つは、自然言語処理モデルのゼロショット転送を実行するオープンソースツールキットであるLanguage-Agnostic Sentence Representations(LASER)だ。ほかにも、翻訳モデルをトレーニングするための”10億スケール”のbitextデータセットCCMatrixと、クロスリンガルなウェブドキュメントペアの大規模テストコレクションであるCCAlignedの2つがある。

Facebookの研究者は、翻訳の需要が統計的にまれなペア(アイスランド語ーネパール語やシンハラ語ージャワ語など)は除いて、分類、地理、文化の類似性に基づき言語を14のファミリーにグループ化する「ブリッジマイニング戦略」を導入した。同じグループに属する言語を使う国に住む人々は、より頻繁にコミュニケーションを取り、高クオリティな翻訳の恩恵がより受けやすいだろうという直感があったからだ。たとえば、あるファミリグループには、ベンガル語、ヒンディー語、マラーティー語、ネパール語、タミル語、ウルドゥー語など、インドで話されているさまざまな言語が含まれる。

Facebookの研究者は、それぞれのファミリーグループの言語をつなぐために、少数の「ブリッジ言語」、つまり各ファミリーグループごとに1〜3つの主要な言語を選定した。たとえば、ヒンディー語、ベンガル語、タミル語は、データセット内のインド・アーリア語のブリッジ言語になっている。次に、これらのブリッジ言語のすべての組み合わせ可能なトレーニングデータをマイニングし、前述の75億個の文のデータを取得した。(次につづく)

【via VentureBeat】 @VentureBeat

【原文】