AppleがWWDC 2023で発表したAI機能たち - BRIDGE（ブリッジ）テクノロジー＆スタートアップ情報

Appleは月曜日、同社の開発者向けカンファレンスWWDC 2023で、Mac、iPhone、iPad、Apple Watch、Apple TV、AirPods、新しいヘッドセット「Apple Vision Pro」といった人気デバイスのソフトウェアの新機能の数々を発表した。イベント前の報道や噂から予想されたように、このテクノロジー大手による新機能の多くは人工知能（AI）、あるいはAppleのプレゼンターがわざわざ細かく言及したように「機械学習」（ML）を盛り込んだものになっていた。

ユーザーのプライバシーとセキュリティに対するAppleのこれまでのコミットメントにならって、これらの新しいAI機能は、ユーザーデータのクラウドへの接続や転送を避け、代わりにデバイス側の処理能力（Appleが「ニューラルエンジン」と呼ぶ）に依存するようだ。本稿ではAppleのデバイスに搭載される、最もエキサイティングなAI機能の数々を紹介する。

自分のデジタルツインを作るVision Proのペルソナ

今回のAppleのイベントの主役は、最後に発表された今再びの「One more thing」だった。つまり、Apple Vision Proだ。この新しい拡張現実ヘッドセットは、スキー用のゴーグルのようなもので、ユーザーは目の上に装着し、現実世界の視界にグラフィックを重ねて見ることができるようになる。

Appleが初の「空間コンピューティング」デバイスと呼ぶこの新しいヘッドセットは、2024年の初頭まではお預けで、さらに3,499ドルという驚くべき価格で販売される予定だ。数々の印象的な機能がずらりと並んでおり、Appleの既存のモバイルアプリケーションの多くをサポートし、Macの操作画面を空中に浮かばせることもできる。

そしてこのAppleがVision Proで披露した主要なイノベーションの1つが、Personaと呼ばれるものだ。これはMLに大きく依存している。この機能は、内蔵カメラでユーザーの顔をスキャンして、実物そっくりのインタラクティブなデジタルツインを素早く作成するものだ。これにより、ユーザーがこのデバイスを装着してFaceTime通話やその他のビデオ会議に参加すると、不格好なヘルメットを装着した実物の代わりにデジタルツインが現れることになる。その表情やジェスチャーはリアルタイムでマッピングしてくれる。

AppleはこのPersonaがAppleの最先端のML技術を使用して作成された、ユーザーの「デジタル表現」になるだろうと説明していた。

文字変換が賢くなるらしい

iPhoneユーザーの方はよくご存じの通り、Appleが現在搭載しているテキストやタイピングのオートコレクト機能は、時に間違っていたり、ユーザーの意図とはかけ離れた言葉（韻を踏んでいるものの「f」で始まる別の言葉ではなく「ducking」）を提案したりして、役に立たないことがままある。しかし、少なくともAppleによれば、iOS 17ではそれがすべて変わるらしい。

同社がiPhoneのオペレーティングシステムに毎年行う最新のメジャーアップデートには、オートコレクトの単語予測能力を向上させるために、GPT-4やClaudeと同じカテゴリーのAIプログラムである「トランスフォーマーモデル」を使用した新しいオートコレクトが含まれるそうだ。このモデルはデバイス上で動作するため、ユーザーのプライバシーを守りながら文章を作成することができる。

オートコレクトは、GoogleのGmailにあるスマートコンポーズ機能と同様に、文章全体の候補を提示し、インラインで候補を表示するようになった。

ライブボイスメール

Appleが披露した最も便利そうな新機能のひとつが、iPhoneのデフォルトの電話アプリに搭載された新しい「ライブボイスメール」だ。この機能は、誰かがiPhoneで受信者に電話をかけ、連絡がつかず、ボイスメールを残し始めたときに起動する。電話アプリは受信者の画面上に、通話中のボイスメールの内容を一字一句テキストベースで表示する。つまり、音声をその場でテキスト化することができるのだ。Appleは、この機能はニューラルエンジンによって実現し「完全にデバイス上で動き、情報はAppleと共有されることはない」と説明していた。

文字起こし機能の改良

Appleの既存の音声書き起こし機能は、ユーザーがiPhoneのデフォルトキーボードにある小さなマイクのアイコンをタップして話し始めることで、言葉を文字にすることができる、あるいはしようとすることができるものだ。この機能は正直精度はイマイチだが、Appleによると、iOS 17には「新しい音声認識モデル」が含まれており、おそらくデバイス上のMLを使用してこの精度をさらに高めることができるとしている。

FaceTimeのプレゼンターモード

Appleは、新たなApple TVを発表しなかったが、主要な新機能を発表している。すなわちFaceTime for Apple TVだ。これはユーザーの近くにあるiPhoneやiPad（持っていることが前提）をビデオカメラとして利用し、他のFaceTime通話参加者をユーザーのテレビに映し出すものになる。

このFaceTime体験のもう一つの新しい側面は、プレゼンテーション・モードになる。これは、FaceTime通話中にアプリや自分のPC画面を相手に提示しながら、その前に自分の顔や頭や肩のライブビューを表示させることができるものだ。プレゼンターの顔を小さな円に縮小し、プレゼン資料の周りに再配置できるビューと、プレゼンターの頭と肩をコンテンツの前に置き、テレビの気象予報士がデジタル天気図を指差すようなジェスチャーが可能なビューが用意されていた。

Appleによると、新しいプレゼンテーションモードは、同社のニューラルエンジンによって実現されているとのことだ。

iPhone用の日記

あなたは日記をつけるだろうか？もしそうでないなら、あるいはすでにそうしているとしても、Appleは、「デバイス上のML」を利用して「一日の振り返りと感謝」を実践できる、より良い方法を見つけたと考えているようだ。iOS 17の新しいApple Journalアプリは、ユーザーのスマートフォンから最近の写真、ワークアウト、その他のアクティビティを自動的に取り込み、未完成のデジタルジャーナルエントリーとして提示し、ユーザーは内容を編集してテキストや新しいコンテンツを好きなように追加できるようにしてくれる。

アプリ開発者にとって重要なのは、Appleが新しいAPI Journaling Suggestionsをリリースしていることだ。つまり、アプリをコーディングすることで、ユーザーに対して同様のジャーナルコンテンツを表示させることができるようになるわけだ。これは、フィットネス、旅行、食事などのアプリにとって特に価値のあるものだが、どの会社がこれを実装し、どれだけエレガントにできるかはわかっていない。

パーソナライズ・ボリューム

AppleはAirPodsの機能として、「MLを使って環境条件やリスニングの好みを長期的に理解し」、ユーザーが望むと思われる音量に自動調整する「Personalized Volume」をアピールしていた。

写真で犬猫を識別できるように

AppleがこれまでiPhoneやiPadに搭載していたMLシステムでは、デフォルトの写真整理アプリ「写真」が、外見に基づいて異なる人物を識別することができていた。例えば、自分自身、子ども、配偶者の写真を見たい場合、iPhoneの写真アプリケーションを立ち上げ、「人と場所」のセクションに移動すると、それぞれのミニアルバムが表示される。

しかし、この機能、便利で嬉しい反面、ある人を置き去りにしていた。それは、私たちの毛むくじゃらの仲間たちだ。でももう安心して欲しい。WWDC2023でAppleは、MLプログラムの改良により、写真認識機能が猫や犬にも対応するようになったと発表した。

【via VentureBeat】 @VentureBeat

【原文】