AmazonのAIは言葉を理解してファッション画像を作ることができる

pexels-photo-2041397 — Photo by CoWomen on Pexels.com

敵対性生成ネットワーク（GANs：サンプルを生成するジェネレーターと、生成されたサンプルと現実世界のサンプルの区別を試みる弁別装置の2部で構成されるAIモデル）は、ビデオ、アートワーク、音楽合成から、創薬や誤解を招くメディアの検出まで、幅広いタスクに適用されている。

今朝のブログ投稿で明らかにしたように、Amazonはこの方法をeコマースにも適用させるようだ。Amazonの研究者たちは、製品の説明にあった衣服の例を生成するGANについて解説し、これらがユーザーの検索クエリを絞り込むために活用できるとも述べた。

たとえば買い物客が「女性用の黒いパンツ」を検索し、「プチ（小さなサイズの）」という単語を追加してから「カプリ（細身でぴったりとしたカプリパンツのこと）」という単語を追加すると、画面上の画像は新しい単語ごとに調整される、といった具合だ。

スタートアップのVue.aiが商品化した、衣服の特性を排除し、リアルなポーズや肌の色、その他の特徴を生成することを学習したGANモデルとそう違わない。アパレルのスナップショットから、あらゆるサイズのモデルイメージを従来の写真撮影の最大5倍の速度で生成できる。

Amazonが提案するシステム（ReStGAN）は、既存のシステム（StackGAN）を修正したもので、画像を2つの部分に分割することで新たな画像を生成する。

GANを使用してまず直接テキストから低解像度の画像を生成し、その後GANで質感や自然な色合いを載せた高解像度バージョンにアップサンプリングする。GANsは一連の入力を順番に処理する、長い短期メモリのAIモデルでトレーニングされ、続けて検索窓に単語が追加されると、画像が切り替わる。

また、商品説明から合成する作業を簡単にするために、システムは3つの製品クラス（パンツ、ジーンズ、ショートパンツ）に制限されている。これはトレーニング画像を標準化するためだ（つまり、形状とスケールが合うように、画像の背景は切り取られ、切り取られてリサイズされている）。

研究チームはこのシステムを監視なしでトレーニングした。これはすなわち、人間による割り当て業務を必要としない製品タイトルと画像でトレーニングデータが構成されたということにほかならない。

同チームは、モデルによって生成された画像を、アパレルタイプ（パンツ、ジーンズ、ショートパンツ）、色、およびメンズ/レディース/ユニセックスのどれに分類するかの3つの条件で識別する補助分類を使用して、システムの安定性を高めた。

研究者はまた、LABと呼ばれる表現空間で色をグループ化した。これは、ポイント間の距離が知覚される色の違いに対応するように設計されており、視覚的に類似した色をテキスト説明の同機能にマッピングするルックアップテーブルの基礎を形成した。

研究者によると、古い視覚的特徴を保ちながら新しいものを追加する機能は、このシステムの新規性のひとつであり、もうひとつは、入力したテキストの色によりマッチする色の画像を生成するカラーモデルだ。実験により、ReStGANはStackGANの構造に基づく従来モデルの最高パフォーマンスと比較して、タイプによる製品分類を最大22％、性別によるものを最大27％改善したと研究チームが報告した。色みに関しては100％向上した。

【via VentureBeat】 @VentureBeat

【原文】