テキストから実物そっくりの風景画像を作成、Nvidiaの最新AI「GauGAN2」の威力 - BRIDGE（ブリッジ）テクノロジー＆スタートアップ情報

Nvidiaは11月22日、GauGAN モデルの後継となる GauGAN2 という AI システムの詳細を発表した。これにより、ユーザーは実在しない実物そっくりの風景画像を作成することができる。GauGAN2 は、セグメンテーションマッピング、インペインティング、テキストから画像への生成などの技術を1つのツールにまとめ、言葉と絵が混在するフォトリアリスティックなアートを作成できるように設計されている。

Nvidia のコーポレート・コミュニケーション・チームのメンバー Isha Salian 氏は、次のようにブログに書いている。

GauGAN2 のニューラルネットワークは、テキストから画像へ、あるいはセグメンテーションマップから画像へのアプリケーションに特化した最先端のモデルと比較して、より多様で高品質な画像を生成する。

ユーザは、想像したシーンのすべての要素を描き出す必要はなく、簡単なフレーズを入力するだけで、雪をかぶった山脈のような画像の主な特徴やテーマを素早く生成することができる。この出発点から、特定の山を高くしたり、前景に数本の木を加えたり、空に雲を加えたりと、スケッチでカスタマイズすることができる。

テキストから画像を生成

後期印象派の画家ポール・ゴーギャンの名になぞらえた GauGAN2 は、100万枚以上の Flickr の公開画像でトレーニングされた Nvidia の2019年の GauGAN システムを改良したものである。GauGAN2 は、GauGAN と同様に、季節によって降水の種類が変わることなど、雪、木、水、花、茂み、丘、山といった対象物の関係性を理解している。

GauGANとGauGAN2は、生成器と識別器で構成されるGAN（Generative Adversarial Network）と呼ばれるシステムの一種だ。生成器は、画像とテキストの組み合わせなどのサンプルを受け取り、どのデータ（単語）が他のデータ（風景写真の要素）に対応するかを予測する。生成器は、識別器を欺くことで学習され、識別器は予測が現実的かどうかを評価する。GANの遷移は、最初は質が悪いが、識別器のフィードバックによって改善される。

GauGAN とは異なり、1,000万枚の画像で学習したGauGAN2は、自然言語による説明を風景画像に変換することができる。sunset at a beach」のようなフレーズを入力するとシーンが生成され、「sunset at a rocky beach」のような形容詞を加えたり、「sunset」を「afternoon」や「rainy day」に入れ替えたりすると、瞬時に画像が修正される。

GauGAN2 では、シーンの中のオブジェクトの位置を示す高レベルのアウトラインであるセグメンテーションマップを生成することができる。そこから描画に切り替え、「空」「木」「岩」「川」などのラベルを使ったラフスケッチでシーンを調整し、ツールのペイントブラシで画像に落とし込むことができる。

AIによるブレインストーミング

GauGAN2は、OpenAI の DALL-E と同じように、テキストプロンプトに合わせて画像を生成することができる。GauGAN2 や DALL-E のようなシステムは、基本的には視覚的なアイデアを生み出すもので、映画、ソフトウェア、ビデオゲーム、製品、ファッション、インテリアデザインなどに応用できる可能性がある。

Nvidia は、GauGAN の最初のバージョンがすでに映画やビデオゲームのコンセプトアートの作成に使用されていると主張している。Nvidia は、GauGAN2のコードをGitHubで公開するとともに、Nvidia の AI およびディープラーニング研究のウェブハブである Playground でインタラクティブなデモを公開する予定だ。

GauGAN2 のような生成モデルの欠点は、バイアスがかかる可能性があることだ。DALL-E の場合、OpenAI は CLIP という特殊なモデルを使用して、DALL-E が生成した1プロンプトあたり数百個のサンプルの中から上位のサンプルを浮上させて画像品質を向上させた。しかし、ある研究によると、CLIP は黒人の写真を高い確率で誤分類し、女性を「乳母」や「家政婦」などのステレオタイプな職業に関連付けていたという。

Nvidia はプレス資料の中で、GauGAN2に偏りがないかどうかをどのように監査したのか、あるいは監査したかどうかについては言及を避けている。Nvidia の広報担当者はメールで説明した。

このモデルは1億個以上のパラメータを持ち、風景画像の独自のデータセットからトレーニング画像を取得して、1ヶ月以内にトレーニングを完了した。このモデルは風景にのみ焦点を当てており、トレーニング画像に人が写っていないかどうかを監査した…GauGAN2は単なる研究用のデモだ。

GauGAN は、実在しない人物の生き生きとした画像を生成できる「StyleGAN」などのディープフェイク技術を開発した Nvidia が提供する、現実を変える最新の AI ツールの1つだ。2018年9月、同社の研究者たちは、脳腫瘍の合成スキャンを工作できるシステムを学術論文に記載した。同年、Nvidia は、現実世界の映像を使って仮想環境を作ることができる生成モデルを詳述した。

GauGAN の登場に先立ち、GAN Paint Studio が公開された。これは、ユーザーが任意の写真をアップロードして、描かれた建物や植物、備品の外観を編集できる AI ツールだ。他にも、生成機械学習モデルを用いて、YouTube の動画を見て、自然言語のキャプションから画像や絵コンテを作成したり、人間の会話を含む音声クリップに顔の動きをアニメーションで同期させたりして、リアルな動画を作成している。

【via VentureBeat】 @VentureBeat

【原文】