テキストからデジタルヒューマンを生み出すSynthesis AI、新たなジェネレーティブAIの手法を発表

サンフランシスコ拠点の合成データ技術を専門とするスタートアップSynthesis AIは、テキストプロンプトからリアルな3Dデジタルヒューマンを作成する新しい方法を発表した。

同社は、オンラインプラットフォームのsynthesis labsで紹介されている「text-to-3D技術」において、生成型人工知能（AI）と視覚効果パイプラインを使用して、ゲームや仮想現実、映画、シミュレーションなど様々な用途に使用できる高解像度、映画品質のデジタル人間を生成すると述べている。

Synthesis AIは、このような高い品質と詳細さでテキストから3Dデジタルヒューマン合成を実証した最初の企業であると主張している。この技術では、ユーザーが希望するデジタルヒューマンの年齢、性別、民族性、髪型、服装などをテキストで入力すると、その仕様に合った3Dモデルが生成される。またこの3Dモデルは編集可能で、テキストを変更したり、スライダーで表情や照明などを調整することも可能である。

今回のtext-to-3D技術は、高度なAIアプリケーション開発を目的に、完全にラベル付けされた合成データによって機械学習（ML）モデルを訓練するミッションの一環であると述べている。合成データとは、実際のデータを模倣して人工的に生成されたデータのことであるが、個人情報や機密情報は含まれていない。

Synthesis AIのCEO兼創業者であるYashar Behzadi氏はVentureBeatに、「我々がsynthesis labsで紹介しているテキストから3Dへの機能は、プログラム的でAPI駆動のアプローチを出発点としています。極めてシンプルなプロンプトベースのユーザーインターフェースを追加し、デジタルヒューマンを必要とする幅広いケースで合成データとして使用できる高解像度3Dモデルを出力するのです。synthesis labsは研究開発作業の一部を実際の顧客と共に実施しています」と語った。

今回の発表は、現在市場に出回っている人間中心の合成データをより深く提供する「synthesis humans（合成人間）」と「synthesis scenarios（合成シナリオ）」の一部として公表された。

テキストから3Dを活用する生成AI

Synthesis AIは、ジェネレーティブAIとシネマティックVFXパイプラインを組み合わせ、MLモデルを訓練するための完璧なラベル付き合成データを作成した。この開発により、テキストから3Dデジタルヒューマン合成が高解像度かつ映画品質で実証されたのは初めてであり、AR/VR、ゲーム、VFX、スマートシティ、バーチャル試着（VTON）、自動車、産業・製造シミュレーションなど様々な産業における3Dアプリケーションの開発加速とコスト削減が期待される。

3Dモデルの作成は、ジオメトリ、メッシュ、テクスチャレイヤーなど、さまざまな要素の相互作用を必要とする多面的で複雑なプロセスである。熟練したゲームやVFXのアーティストにとって、人間中心のキャラクターやシーンでは、人間モデルから始めることが歴史的に最も適した選択肢であった。この方法は、CGで作られた人間を一から作り上げるよりも、より速く、より簡単なことが多いのである。

しかし、高品質の人体モデルを作るには、専用のフォトグラメトリーセットアップが必要である。フォトグラメトリーとは、実際の人物を複数の角度から撮影し、2次元の生画像を作成するための装置である。そして、最適な品質を確保するために、手作業で最適化されたさまざまなツールを使って、画像を丹念に合成していく。

それに対して同社はテキストから3Dのデジタルヒューマン合成という革新的なアプローチを考案したことになる。生成型AIアーキテクチャを活用した自社モデルを開発し、性別、年齢、民族性などの重要なパラメータに支配された多様なメッシュを生成したのだ。テクスチャーレイヤーは、独立したジェネレーティブモデルを使用し、きめ細かく独立した制御を実現している。

この2つの要素を組み合わせることで、包括的で高解像度の3Dモデルが完成するのである。

テキストプロンプトで生成された3Dモデル、画像ソースはこちら：Synthesis AI

「多様な人間を集めたセットを作ろうとすると、ある種の人々を集めなければならいですし、免責などの面でもはるかに複雑になります」とSynthesis AIのBehzadi氏はVentureBeatに語った。

「一方で安価に合成されたデジタルヒューマンであれば、これらのオプションのいずれよりも桁違いに速く、安価にそれが可能になります。テキストから3Dへの機能により、高品質の資産をオンデマンドで生成することができ、1モデルあたり数週間の時間と数千ドルを節約することができるでしょう」（Behzadi氏）。

synthesis labsで紹介されたテキストから3Dへ変換は、プロンプトベースの入力と編集を導入し、ノーコードの3DジェネレーティブAIとしてあらゆる経験レベルの人でも利用しやすくしている。

Behzadi氏は、「まず、プロンプトベースの生成と反復は、検索エンジンを使用できるすべての人に創造的な力をもたらすでしょう」と述べる。「しかし、この製品のアーリーアダプター層やパワーユーザーは、あらゆるエンターテインメントやメディアのテクニカルアーティストや、3Dシミュレーションに代表的なデジタルヒューマンを登場させたい産業・製造ソフトウェアのプロダクトマネージャーだと考えている。これらはどちらも技術的な対象であるが、高度なMLスキルを持ち合わせていない可能性が高い」と語った。

Synthesis AIが独自に開発した10万人以上のデジタルヒューマン（またはID）のライブラリは、モデルのトレーニングに使用する基礎データとなる。同社の他の製品であるsynthesis humansとsynthesis scenariosは、すでにこのライブラリを活用し、顔認証機能、ドライバーモニタリング、アバターなどの開発をサポートするラベル付きトレーニングデータで、大手コンピュータビジョンチームをサポートしているという。

Synthesis AIの次の展開は？

synthesis labsの立ち上げは企業や産業、公共部門などの顧客が、あらゆる人、場所、物体を合成して現実をシミュレートできるようにするための、Synthesis AIの重要なマイルストーンとなるものだ。用途としては、VFX、AR/VR、メディアやコンテンツ制作におけるコンピュータビジョンモデルを訓練するためのシミュレーションや合成データなどが挙げられる。

テキストから3Dデジタルヒューマンへの新機能は、本年第2四半期から一部のベータテスターに提供される予定である。

Behzadi氏は「この機能を外部ユーザーに開放することで、コミュニティからのフィードバックを活用し、基礎となる生成モデルをさらに洗練させることができる。人間のフィードバックによる強化学習（RLHF）は、基礎となるモデルの性能を継続的に向上させ、エッジケースを発見するための鍵である」とも述べている。また彼は生成AIと映画的な視覚効果パイプラインを組み合わせることで、企業は人間環境、オブジェクトを含む世界を合成することができるようになるとも述べた。