Google、最新のAI研究成果を披露——脚本から映像を創り出すAI、1,000言語対応翻訳機への挑戦など

SHARE:
Google AI イベントで、動画で聴衆に語りかける Sundar Pichai 氏。
Image credit: VentureBeat

2日朝(現地時間)、ニューヨークにある Google の Pier 57 オフィスで開催された AI(人工知能)イベントで、Google は、ジェネレーティブ AI、言語翻訳、健康 AI、災害管理など、さまざまな AI の進歩を発表した。

また、このイベントでは、「責任ある AI」を構築するための取り組み、特に制御と安全に関連する議論に大きく焦点が当てられ、ジェネレーティブ AI の特定を支援し、「みんなのために構築する」ことが示された。

我々はこの先に多くの機会を見出し、あらゆる変革的なテクノロジーと同様に、人々を助けるためにテクノロジーを構築することを約束する。このイベントでは、テクノロジーが人々の生活にいかに役立つかを改めて想起させるだろう。(参加者に共有した動画で語る、Google CEO の Sundar Pichai 氏)

さらに Pichai 氏は、AI に伴うリスクや課題についても指摘した。

だからこそ、Google は最初から「責任ある AI」に焦点を当て、何よりも人々の安全とプライバシーを優先する AI 原則を発表している。

ベールを脱いだ「Imagen Video」と「Phenaki」

Google Research のプリンシパル・サイエンティストで、Google の Brain Team のリサーチ・ディレクターである Douglas Eck 氏は、(DALL-E 2 や Stability AI と比べて)慎重かつゆっくりとした取り組みで、テキストから画像を生成する AI システムをリリースするなど、Google のジェネレーティブ AI に関するさまざまな発表を紹介した。

Google Imagen はまだ一般には公開されていないが、同社は初期のフィードバックを収集する方法として、AI Test Kitchen アプリ(今年「LaMDA」を披露した)に限定した形で追加することを発表した。同社は、「City Dreamer」と呼ばれるデモを披露し、ユーザが例えばカボチャなどのテーマに沿ってデザインされた街のイメージを生成できるようにした。

また、先月発表されたテキストから画像を生成する技術を元にして、Google は「Imagen Video」と「Phenaki」という、テキストから動画を生成する研究アプローチを共有すべく、生成された動画の最初のレンダリング結果を公開した。これは、一連のテキストから動画を生成する Phenaki の能力と、Imagen の高解像度のディテールを組み合わせたものだ。

Google による Imagen Video と Phenaki で生成された動画の最初のレンダリング結果

Google Research のプリンシパル・サイエンティストで、Google の Brain Team のリサーチ・ディレクターであるDouglas Eck 氏は、次のように述べた。

超解像ビデオでこのような長編のストーリーを語ることができるのは驚くべきことで、一つのテキストからではなく、一連のテキストから、新しいストーリーテリングの方法をもって語れる。

映画制作者やビデオストーリーテラーがこのテクノロジーをどう活用できるかに興奮していると付け加えている。

その他のジェネレーティブ AI の進歩

テキスト分野では、対話エンジン LaMDA と、LaMDA をツールとしてプロの作家に実験的な小説の執筆を依頼した「Wordcraft Writers Workshop」についても言及した。

Google は近々、これに関する研究論文を発表する予定だと Eck 氏は語った。

一つの明確な発見は、LaMDA を使って完全な物語を書くことには行き詰まるということだ。スパイスを加えるために LaMDA を使う方が有用だ。

また、ユーザインターフェイスも正しくなければならず、「目的を持ったテキストエディタ」として機能する必要があると付け加えた。

Eck 氏は、AIを使ってコードを生成する Google の取り組みや、最近紹介された、楽譜を必要とせず、入力した音声クリップから音声を拡張する AudioLM、最近発表された Imagen と NeRF の 3D 機能を組み合わせた、テキストから 3D レンダリングを行う「DreamFusion」などの研究も紹介した。

ジェネレーティブな領域でこれほど多くの進歩を見たことがない、そのペースは本当にすごい。(Eck 氏)

Google のDreamFusion。テキストを 3D 画像に変換するようデザインされている。

世界共通の音声翻訳機を開発中

Google Brain のリーダーである Zoubin Ghahramani 氏は、言語 AI 研究における Google のさまざまな進歩を確認した後、世界の言語の多様性を反映するための同社の取り組みと、世界の上位1,000言語をサポートするモデルの構築という野心的な試みを発表した。

さらに Google は、400以上の言語で学習させたユニバーサルスピーチモデルを構築しているとし、「今日のスピーチモデルで見られる最大の言語モデルカバレッジ」であると主張している。

これらの努力はすべて、数年にわたる旅になるだろう。しかし、このプロジェクトは、言語ベースの AI を誰にとっても真に役立つものにするための重要な基礎を築くことになるだろう。(Ghahramani 氏)

「責任ある AI」への強いこだわり

AI 発表に続いて、Googleのエンジニアリング担当 VP Marian Croak 氏と、Google-Alphabet の SVP James Manyika 氏も参加し、Google が「責任あるAI」にフォーカスすることについて議論された。

我々がリーダーであろうとするならば、「責任ある AI」技術の最先端を押し進めることが極めて重要だと思う。私は、物事を実際に機能させる方法を発見したいと強く思っている。(Croak 氏)

Google は、常に継続的に敵対的なテストを行っていると彼女は言う。

我々の AI のすべての次元にわたって、定量的で測定・検証可能なベンチマークを設定していることも確認している。だから、我々はそれを継続的に行っている。(Croak 氏)

【via VentureBeat】 @VentureBeat

【原文】

BRIDGE Members

BRIDGEでは会員制度の「Members」を運営しています。登録いただくと会員限定の記事が毎月3本まで読めるほか、Discordの招待リンクをお送りしています。登録は無料で、有料会員の方は会員限定記事が全て読めるようになります(初回登録時1週間無料)。
  • 会員限定記事・毎月3本
  • コミュニティDiscord招待
無料メンバー登録