Google、AIで「男女別翻訳」に対応 - BRIDGE（ブリッジ）テクノロジー＆スタートアップ情報

Googleは4月22日、文法上の男女別に翻訳する機能を英語からスペイン語、そしてフィンランド語・ハンガリー語・ペルシャ語から英語へのGoogle翻訳においてリリースすることを発表した。新しいパラダイムを活用して翻訳結果を性別に対応した文章に修正することにより、ジェンダーバイアスの問題に対処する。

同社は、すでにトルコ語から英語への男女別翻訳を提供していたが、その根幹となる技術は主にジェンダー中立かどうかをデータ集約的に検出する仕組みであった。今回のアプローチはそうではないため、よりスケーラブルだとしている。Google ResearchのシニアソフトウェアエンジニアであるMelvin Johnson氏はこう述べている。

男女別翻訳の質を高め、さらに4つの言語ペアに拡張することで、初めにローンチしたものよりも格段に進化しました。ジェンダーバイアスにさらに取り組んでいくことを約束し、ドキュメントレベルの翻訳にも拡大する予定です。

Johnson氏の説明によると、トルコ語から英語への男女別翻訳に使用されていた従来の分類子は、新しい言語に適応するのに手こずり、ニューラル機械翻訳（NMT）システムを使用して男女別翻訳を個別に出力することができなかったという。さらに、適格なクエリに対して男女別翻訳を表示することができなかった割合は最大40%だった。これは、男女別翻訳結果が、ジェンダーに関する部分以外でも一致しないことが多いからだ。

対照的に、新しいリライトベースの手法では、まず翻訳を生成し、次にそれらをレビューして、ジェンダー中立のソースフレーズからジェンダー固有の翻訳を生み出すインスタンスを特定。それが正しければ、センテンスレベルのリライターがもう片方の性の翻訳文を出力する。最後に、初めの翻訳文とリライトされた翻訳文をレビューし、違いがジェンダーだけであることを確認する。

Googleによると、このリライターは男性形・女性形のフレーズのペアからなるトレーニング用の例文を数百万件使用して構築された。Google翻訳チームは、一言語の膨大なデータセットに対し、性の区別のある代名詞を男性形から女性形（またはその逆）に交換することでリライト候補文を用意した。エンジニアが開発した言語モデルを数百万件の英文でトレーニング。コーパスから、男性形のインプットから女性形のアウトプット、またはその逆のトレーニングデータを抽出した。

双方向のトレーニングデータをマージしたものを使って、1層のTransformerベースのシーケンス間モデルをトレーニングした。次に句読点や大文字・小文字のバリエーションをつけたトレーニングデータでモデルの堅牢性を高め、最終的に男性形または女性形へのリライトを99%の割合で確実に生成できるようになった。

Johnson氏によると、Googleが開発したバイアスリダクションという測定基準で新旧の翻訳システムのバイアス減少率を測定したところ（ここでいう「バイアス」とは、ソースには男女の区別がないのに翻訳結果にはどちらか一方の性が選択されてしまうことを指す）、ハンガリー語、フィンランド語、ペルシャ語から英語への翻訳においてバイアスが90%以上減少。トルコ語から英語への翻訳については60％から95％に改善された。性別の正確性（性別を指定した場合に正しい男女別で翻訳できる割合）は平均97%だった。

改良版のGoogle翻訳システムは、同社がCloud Vision APIから人々の画像を「男性」「女性」とラベル付けする機能を削除してから数カ月後にロールアウトされる。これとは別に、2018年1月、GoogleはGmailの文章を自動的に補完する機能、Smart Composeにおいても推定される性別に基づいた男女別代名詞を使うことを中止している。

翻訳やコンピュータビジョンへのジェンダー中立なアプローチは、AIシステムから偏見をなくすためにGoogleが行っている大規模な取り組みのほんの一部だ。マウンテンビューに本社を置く同社では、AI倫理チームが開発したテストでバイアスを割り出し、予測技術から暴言、人種差別、ライバル会社への中傷や悲劇的な出来事への言及を取り除いている。

【via VentureBeat】 @VentureBeat

【原文】