Google、最新のAI研究成果を披露——脚本から映像を創り出すAI、1,000言語対応翻訳機への挑戦など

Google AI イベントで、動画で聴衆に語りかける Sundar Pichai 氏。
Image credit: VentureBeat

2日朝（現地時間）、ニューヨークにある Google の Pier 57 オフィスで開催された AI（人工知能）イベントで、Google は、ジェネレーティブ AI、言語翻訳、健康 AI、災害管理など、さまざまな AI の進歩を発表した。

また、このイベントでは、「責任ある AI」を構築するための取り組み、特に制御と安全に関連する議論に大きく焦点が当てられ、ジェネレーティブ AI の特定を支援し、「みんなのために構築する」ことが示された。

我々はこの先に多くの機会を見出し、あらゆる変革的なテクノロジーと同様に、人々を助けるためにテクノロジーを構築することを約束する。このイベントでは、テクノロジーが人々の生活にいかに役立つかを改めて想起させるだろう。（参加者に共有した動画で語る、Google CEO の Sundar Pichai 氏）

さらに Pichai 氏は、AI に伴うリスクや課題についても指摘した。

だからこそ、Google は最初から「責任ある AI」に焦点を当て、何よりも人々の安全とプライバシーを優先する AI 原則を発表している。

ベールを脱いだ「Imagen Video」と「Phenaki」

Google Research のプリンシパル・サイエンティストで、Google の Brain Team のリサーチ・ディレクターである Douglas Eck 氏は、（DALL-E 2 や Stability AI と比べて）慎重かつゆっくりとした取り組みで、テキストから画像を生成する AI システムをリリースするなど、Google のジェネレーティブ AI に関するさまざまな発表を紹介した。

Google Imagen はまだ一般には公開されていないが、同社は初期のフィードバックを収集する方法として、AI Test Kitchen アプリ（今年「LaMDA」を披露した）に限定した形で追加することを発表した。同社は、「City Dreamer」と呼ばれるデモを披露し、ユーザが例えばカボチャなどのテーマに沿ってデザインされた街のイメージを生成できるようにした。

また、先月発表されたテキストから画像を生成する技術を元にして、Google は「Imagen Video」と「Phenaki」という、テキストから動画を生成する研究アプローチを共有すべく、生成された動画の最初のレンダリング結果を公開した。これは、一連のテキストから動画を生成する Phenaki の能力と、Imagen の高解像度のディテールを組み合わせたものだ。

Google による Imagen Video と Phenaki で生成された動画の最初のレンダリング結果

Google Research のプリンシパル・サイエンティストで、Google の Brain Team のリサーチ・ディレクターであるDouglas Eck 氏は、次のように述べた。

超解像ビデオでこのような長編のストーリーを語ることができるのは驚くべきことで、一つのテキストからではなく、一連のテキストから、新しいストーリーテリングの方法をもって語れる。

映画制作者やビデオストーリーテラーがこのテクノロジーをどう活用できるかに興奮していると付け加えている。

その他のジェネレーティブ AI の進歩

テキスト分野では、対話エンジン LaMDA と、LaMDA をツールとしてプロの作家に実験的な小説の執筆を依頼した「Wordcraft Writers Workshop」についても言及した。

Google は近々、これに関する研究論文を発表する予定だと Eck 氏は語った。

一つの明確な発見は、LaMDA を使って完全な物語を書くことには行き詰まるということだ。スパイスを加えるために LaMDA を使う方が有用だ。

また、ユーザインターフェイスも正しくなければならず、「目的を持ったテキストエディタ」として機能する必要があると付け加えた。

Eck 氏は、AIを使ってコードを生成する Google の取り組みや、最近紹介された、楽譜を必要とせず、入力した音声クリップから音声を拡張する AudioLM、最近発表された Imagen と NeRF の 3D 機能を組み合わせた、テキストから 3D レンダリングを行う「DreamFusion」などの研究も紹介した。