rinna社、日本語に特化した言語画像モデルCLIPを公開

SHARE:

商用利用可能な Apache-2.0 ライセンスで公開することで日本語の言語・画像コミュニティに還元

rinna株式会社(本社:東京都渋谷区/代表取締役:ジャン“クリフ”チェン、以下rinna社)は、日本語に特化した言語(テキスト)と画像の関係を表現できる事前学習言語画像モデルCLIP(Contrastive Language-Image Pre-training)とその改良版モデルCLOOBを学習し、商用利用可能な Apache-2.0 ライセンスで公開したことを発表します。
本モデルを公開することにより、日本語における言語・画像理解に関する研究の活発化に繋がることを期待しています。今後の研究成果は引き続き公開し、研究・開発コミュニティへ還元していきます。

■概要
rinna社はこれまでに、日本語の自然言語処理 (NLP) に特化したGPT (13億パラメータ) やBERT (1.1億パラメータ) の事前学習言語モデルを公開し、多くの研究・開発者にご利用いただいています。汎用言語モデルの活用の幅は広がっており、OpenAI社により開発されたCLIPは、言語と画像の関係を表現することを実現しました。
この度rinna社では、日本語に特化したCLIPを学習しました。また、CLIPの改良モデルであるCLOOB (Contrastive Leave One Out Boost) についても同様に日本語に特化した学習を行いました。これらのモデルをAIモデルライブラリである Hugging Face に商用利用可能な Apache-2.0 ライセンスで公開することで、言語・画像コミュニティに還元いたします。

■ Hugging Face URL
CLIP: https://huggingface.co/rinna/japanese-clip-vit-b-16
CLOOB: https://huggingface.co/rinna/japanese-cloob-vit-b-16

■CLIPの解説
CLIPは、言語(テキスト)と画像の関係を表現できる事前学習言語画像モデルです。例えば、猫の画像に対して、「可愛い猫の写真」のテキストの方が「犬が散歩している写真」のテキストより近しいと判断することが可能です。
CLIPの学習には、画像とその画像を説明するテキスト(例えば、「可愛い猫の写真」の画像とテキスト)のペアを大量に利用します。学習段階では、「可愛い猫の写真」の画像は「可愛い猫の写真」のテキストとは近く、「犬が散歩している写真」のテキストとは遠い関係性であることを学習させます。それと同時に、「可愛い猫の写真」のテキストは「可愛い猫の写真」の画像には近く、「犬が散歩している写真」の画像には遠い関係性であることも学習させます。このような学習により、言語と画像の関係を表現することが可能となります。また、CLIPと同時に公開するCLOOBはCLIPを改良したモデルであり、CLIPより高い性能であることが報告されています。
言語と画像の関係を表現できるCLIPは、多様なタスクに適用することができます。例えば、猫と犬のような複数のクラスに画像を分類する画像分類タスクや、あるテキストに対して近い画像をいくつか出力する画像検索に適用することができます。さらに、画像生成モデルと組み合わせ、テキストから画像を生成させることも可能です。これは、CLIPがテキストに対する画像の類似度を出力することができる特徴を活かし、画像生成モデルにその類似度が高くなるような画像を生成させることで実現できます。

■rinna社の日本語CLIPの特徴
当社のCLIPは、以下の特徴があります。
・ 学習データとして、CC12M < https://github.com/google-research-datasets/conceptual-12m > の1200万の言語・画像ペアのオープンソースデータを日本語に翻訳し使用しています。
・ CLIP/CLOOBの学習には大きいバッチサイズでの学習を必要としますが、当社のモデルは8つのNVIDIA Tesla A100 GPU (80GBメモリ) を用いて十分な計算機リソースで学習されています。
・ CLIP/CLOOBの学習には、これまでに当社で公開した日本語に特化したBERT (1.1億パラメータ) を利用しています。
・ 学習されたCLIP/CLOOBはHugging Faceに商用利用可能な Apache-2.0 Licenseで公開されています。
・ CLIP/CLOOBは画像分類モデルとして学習していないにもかかわらず、画像分類タスクをこなすことができます。今回のモデルでは、追加学習なしのzero-shot画像分類において、日本語1000クラス50000枚の画像に対し、CLOOBの上位1位の予測ラベルの正解率Top1は48.36%を達成しています(表1)。これは、モデルが言語と画像の関係を理解していることを示します。
表1:ImageNet validation setの1000クラスに対するzero-shot画像分類の結果

PR TIMESで本文を見る