AI時代、iPhoneはどう変わるかーーAppleが最新のAI研究を公開 - BRIDGE（ブリッジ）テクノロジー＆スタートアップ情報

技術革新の代名詞ともいえるAppleが、再びAI革命の最前線に立った。

カリフォルニア州クパチーノに本社を置く同社は、3Dアバターおよび「効率的な」言語モデル推論の新たな技術を紹介する2つの論文を発表し、人工知能研究で大きく前進したことを明らかにした。この技術で、より没入感のある視覚体験が可能になり、複雑なAIシステムをiPhoneやiPadなどの消費者向けデバイスで実行できるようになるという。

最初の研究論文でAppleの研究者たちは、短い単眼ビデオ（すなわち、単一のカメラから撮影されたビデオ）からアニメーション化された3Dアバターを生成するHUGS（Human Gaussian Splats）を提案している。主執筆者のMuhammed Kocabas（ムハンマド・コカバース）氏はその中で、「我々の方法はわずかな（50-100）フレーム数の単眼ビデオだけを取り、30分以内に静的なシーンと完全にアニメーション可能な人間のアバターを切り離すことを自動的に学習する」と述べている。

※動画の四分割：トレーニングビデオ（左上）、再構築された標準的な人間のアバター（右上）、再構築されたシーンモデル（左下）、シーンと共にアニメーション化された人間（右下）Video credit：Apple

HUGSは、効率的なレンダリング技術である3Dガウス・スプラッティングを用いて、人間と背景シーンの両方を表現する。人体モデルはSMPLと呼ばれる統計的体型モデルで初期化される。しかし、HUGSはガウシアン（訳註：3Dオブジェクトを構築するための数学関数の一種）を超えた処理が可能で、衣服や髪のような細部のキャプチャができるようになっている。

新しい神経変形モジュールは、線形ブレンドスキニング（訳註：骨格構造を構築するためのアルゴリズムの一種）を使用してリアルなアニメーション化を実現する。この動きにより、アバターを再配置する際の「ひずみ」が回避されるのだ。Kocabas氏によれば、HUGSは人間のポーズと人間のシーンのビュー合成を可能にするという。

これまでのアバター生成手法と比較して、HUGSはトレーニングおよびレンダリングにおいて最大100倍も高速になるという。研究者らは、一般的なゲーム用GPUでシステムをわずか30分間最適化しただけで、フォトリアリスティックな結果を実証したと述べている。

HUGSはまた、Vid2Avatarや NeuManのような最先端の技術を3Dで再構成された品質において凌駕している。

※動画：人物と場所を撮影した1本のビデオだけで、さまざまなデジタル・キャラクター（アバター）を新しいシーンに登場させることができる。画像は1秒間に60回更新され、滑らかでリアルに見える。Video credit：Apple

この3Dモデリング機能は、Appleの研究者たちによる素晴らしい成果だ。リアルタイムのパフォーマンスと、ビデオからアバターを作成する能力は、比較的近い将来、バーチャル試着、テレプレゼンス、合成メディアの新たな可能性を解き放つだろう。

iPhoneのカメラでこのような斬新な3Dシーンを作成できるとしたら、どんな可能性が生まれるのか想像してみてほしい。

AI推論における記憶のギャップを埋める

ふたつ目の論文では、Appleの研究者たちがメモリが限られたデバイス上で大規模な言語モデル（LLM）を展開する際の重要な課題に取り組んでいる。GPT-4のような最新の自然言語モデルには数千億のパラメータが含まれており、消費者向けハードウェアでは推論にコストがかかる。提案されたシステムは、推論中にフラッシュ・ストレージからDRAMへのデータ転送を最小化する。

この論文の主執筆者であるKeivan Alizadeh（ケイバン・アリザデ）氏は「我々の手法では、フラッシュ・メモリの動作と調和する推論コスト・モデルを構築することで、フラッシュ・メモリからのデータ転送量の削減と、より大きく連続したデータ読み出しという、ふたつの重要な領域での最適化を実現しています」と説明する。

最適化については主にふたつのテクニックが紹介されている。Windowingは最近の推論からアクティベーションを再利用するもので、行-列バンドルでは、行と列を一緒に格納することで、より大きなデータブロックを読み込む。Apple M1 Max CPUではこれらの手法により、一般的な読み込みに比べて推論の待ち時間が4～5倍改善される。さらにGPUを使えば改善の幅は20-25倍に達する。

共著者のMehrdad Farajtabar（メルダド・ファラジタバル）氏は、このブレークスルーは資源が限られた環境で高度なLLMを展開し、その適用性とアクセシビリティを拡大するために特に重要だと述べた。

つまり、複雑なAIアシスタントやチャットボットがiPhoneやiPadなどのモバイル機器でスムーズに動作するようになる日も近いかもしれない。

Appleの戦略的ビジョン

いずれの論文も、AIの研究と応用においてAppleがリーダーシップを発揮しつつあることを示している。

専門家はAppleがこれらの技術を消費者向け製品に組み込む際には、細心の注意と責任を払う必要があると指摘している。プライバシーの保護から悪用の防止に至るまで、社会的影響を考慮する必要があるからだ。

Appleがこれらのイノベーションを製品ラインナップに統合する可能性がある、ということは同社が単にデバイスを強化するだけでなく、明確にAIを組み込んだサービスの将来ニーズを予測している証拠とも言えるだろう。

より複雑なAIモデルを限られたメモリのデバイスで実行できるようにすることで、Appleは、これまで実現不可能だった方法でLLMのパワーを活用する新しいクラスのアプリケーションやサービスの舞台を整える可能性がある。

さらに、Appleはこの研究を発表することで、より広範なAIコミュニティに貢献し、この分野のさらなる発展を促す可能性がある。Appleの技術リーダーとしての地位に対する自信と、可能性の限界を押し広げることへのコミットメントを反映した動きとも言えるだろう。

Appleの最新の技術革新は、適切に適用されれば、人工知能を次のレベルに引き上げる可能性がある。フォトリアリスティックなデジタルアバターや、ポータブルデバイスに搭載されたパワフルなAIアシスタントは、かつては遠い存在に思えたが、Appleの研究者たちのおかげで、未来は急速に現実のものとなりつつある。

【via VentureBeat】 @VentureBeat

【原文】